copywang

参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

  1. 根据登陆后的cookie制作header,请求搜索微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的字段信息
  5. 爬取文章详情页并存储到MongoDB

步骤

  1. 制作cookie,拼接URL
  2. 获取每一页的html代码
  3. 从每一页的html代码解析得到具体文章的url
  4. 获取具体文章的url,解析得到需要的信息

收获

  1. 使用pyquery
  2. 使用代理IP
  3. 异常处理

分类:

技术点:

相关文章:

  • 2021-06-16
  • 2021-06-11
  • 2021-07-02
  • 2021-12-13
  • 2021-11-06
  • 2021-12-25
  • 2021-12-19
  • 2022-01-03
猜你喜欢
  • 2021-11-06
  • 2021-07-06
  • 2021-04-24
  • 2021-11-06
  • 2021-12-22
相关资源
相似解决方案