DrcProgrammingCool

------------恢复内容开始------------

调试过程中遇到的问题

(1)爬取首页源码出现中文乱码

解决方案: 将网页编码强制转换成gbk,并去除解决乱码问题的三行代码。

 

 

(2)程序运行到一半一直没有反应,没有报错也没有停止运行。

原因:频繁请求服务器,网站有反爬取机制。

解决方案:添加一个header浏览器伪装,模仿浏览器请求,防止封锁本机IP地址。

 

(3)标题加入列表时抛出异常。

原因:某个文章标题&nbsp含有空格符,BeautifulSoup无法解析。

解决办法:利用replace()函数将\xa0代替掉。

 

(4)保存列表数据时格式没有对齐,有点乱

原因:原文中含有大量的\n存在,列表存入时遇到\n直接换行存入。

解决办法:利用replace()函数将\n代替掉。

 

分类:

技术点:

相关文章:

  • 2021-12-26
  • 2018-06-13
  • 2021-09-25
  • 2021-08-08
  • 2021-11-05
  • 2021-12-31
  • 2021-11-22
猜你喜欢
  • 2020-11-11
  • 2021-06-04
  • 2021-12-22
  • 2021-09-09
  • 2021-12-01
相关资源
相似解决方案