我现在在写一个爬虫爬一些页面,发现有些页面中的内容含有'<',例如<div>a<b</div>,源页面没有给'<'做转义。我用 lxml 处理的时候,取 text 只能取到 a ,后面的'<b'丢失了,请问一下大家遇到这种情况如何处理的?谢谢!
1
pubby Mar 1, 2017
给站长报告 bug ,他改好了,你这边就正常了。
|
2
abc950309 Mar 1, 2017
text = res.text.replace('<', ‘<’)
|
3
binux Mar 1, 2017
这样的页面,浏览器就是解析成 <div>a<b< div=""></b<></div> 的,提取出 a<b 岂不是和用户看到的不一样了。
|
4
jy02201949 Mar 1, 2017
@abc950309 #2 应该 OK ,但是个页面这么搞,消耗资源太多了吧
|