1、准备

1.1、准备你需要爬取的网站及其资源

1.2、准备开发环境

1.2.1、准备Python

1.2.2、准备Scrapy

2、编写代码

2.1、初始化Scrapy项目

使用一下命令创建一个Scrapy项目

scrapy startproject project_name

2.2、创建spider

2.2.1、创建spider

使用以下命令创建spider

scrapy genspider spider_name domain[https://xxx.com/]

2.2.2、编写获取单页面代码

2.2.2.1、scrapy shell 测试

1、使用scrapy shell进行页面爬取

1.1.命令

scrapy shell url

1.2.演示

scrapy 爬取图片教程

2、对页面进行xpath提取资源

2.1.命令

response.xpath('experssion')

2.2.演示

scrapy 爬取图片教程

2.3.注意

当xpath表达式和浏览器上一致,但还是无法获取时,需要使用 view(response)    打开scrapy爬取的页面进行解析,查看代码,再编写xpath表达式

3、编写代码

3.1.命令

3.2.演示

scrapy 爬取图片教程

2.2.3、编写获取下一页页面代码

1、设置变量 next_base_url page_index page_max

scrapy 爬取图片教程

2、编写代码

scrapy 爬取图片教程

2.2.4、编写获取页面图片代码

scrapy 爬取图片教程

2.3、编写items

scrapy 爬取图片教程

2.4、编写pipelines

1、设置 setting

1.1. 设置图片保存路径

scrapy 爬取图片教程

1.2. 关闭robots规则

scrapy 爬取图片教程

1.3. 开启管道

scrapy 爬取图片教程

2、撸码

scrapy 爬取图片教程

2.5、debug项目

使用scrapy crawl spider 进行调试

2.6、运行项目

放开下一页限制,在使用scrapy crawl spider运行代码

3、总结

玩起还是不错的。

相关文章: