参考链接:

项目地址:

copywang/spiders_collection

实验功能

爬取 http://www.mzitu.com/hot/ 文章图片

 

  1. 先请求http://www.mzitu.com/hot/ 首页
  2. 分析首页HTML代码,用正则表达式获取一共有多少后翻页数,后续的url格式是http://www.mzitu.com/hot/页码
  3. 在"http://www.mzitu.com/hot/页码" 中查找图片页的地址,使用正则表达式
  4. 把图片详情页的url作为参数,传入main函数,首先请求图片详情页,使用正则表达式查找是有多少张图片,使用图片详情页的url和图片的索引,可以组合出图片页的真实url,使用正则表达式获取图片标题和图片真实的url
  5. 下载图片,并保存到MongoDB

遇到的问题

 

  1. 请求图片详情页出错,返回“盗链”的图片提示,修改header并传入正确的Referer解决
  2. 图片标题带?,使用replace方法替换,否则无法创建目录

需要改进的地方

 

  1. 多线程,当前是单线程采集,速度很慢

采集结果:

【学习】04 妹子图网爬虫最热图片

 

相关文章:

  • 2022-01-09
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-08-01
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2021-09-04
  • 2021-07-26
  • 2022-03-03
  • 2021-07-09
  • 2022-12-23
  • 2021-11-02
相关资源
相似解决方案