爬到的书店的名称里面有如下情况:

爬虫-处理html的转义字符

这是HTML转义字符的原因导致的,

如下:

爬虫-处理html的转义字符

解决方法

方法一-----------------------采用正则---如下,有问题,这样变成一个一个字符了,还要进行拼接处理

爬虫-处理html的转义字符

方法二--------------------使用html模块里面的方法-html.unescape()

爬虫-处理html的转义字符

欧克

 

相关文章: