写爬虫抓文章,打算是将某个div下的所有html弄出来,结果这一步就搞不定了,我对lxml还是了解不深,这里求个方法。
另外计划是转换成markdown或者rst再转换回html来清除html格式,这里也搭车求推荐点库。或者更好的方案。
另外计划是转换成markdown或者rst再转换回html来清除html格式,这里也搭车求推荐点库。或者更好的方案。
1
fy OP 我弄到答案了……
html = lxml.html.tostring(node) 不过还是求助第二条 |
2
binux Aug 7, 2014
lxml.html.tostring
.text_content() |