【Python3 爬虫学习笔记】Scrapy框架的使用 2

运行

进入Scrapy创建的目录，运行如下命令：

scrapy crawl quotes

首先，Scrapy输出了当前的版本号以及正在启动的项目名称。接着输出了当前settings.py中一些重写后的配置。然后输出了当前所应用的Middlewares和Pipelines。Middlewares默认是启动的，可以在settings.py中修改。Pipelines默认是空，同样页可以在settings.py中配置。
接下来就是输出各个页面的抓取结果了，可以看到爬虫一边解析，一边翻页，直至将所有内容抓取完毕，然后终止。
最后，Scrapy输出了整个抓取过程的统计信息，如请求的字节数、请求次数、响应次数、完成原因等。
【Python3 爬虫学习笔记】Scrapy框架的使用 2

保存到文件

运行完Scrapy后，我们只在控制台看到了输出结果。要完成保存结果，不需要额外的代码，Scrapy提供的Feed Exports可以轻松将抓取结果输出。例如，我们想将上面的结果保存成JSON文件，可以执行如下命令：

scrapy crawl quotes -o quotes.json

命令运行后，项目内多了一个quotes.json文件，文件包含了刚才抓取的所有内容，内容是JSON格式。
另外我们还可以每一个Item输出一行JSON，输出后缀为jl，为jsonline的缩写，命令如下所示：

scrapy crawl quotes -o quotes.jl

或

scrapy crawl quotes -o quotes.jsonlines

输出格式还支持很多种，例如csv、xml、pickle、marshal格式以及ftp远程输出：

scrapy crawl quotes -o quotes.csv
scrapy crawl quotes -o quotes.xml
scrapy crawl quotes -o quotes.pickle
scrapy crawl quotes -o quotes.marshal
scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/to/quotes.csv

其中，ftp输出需要正确配置用户名、密码、地址、输出路径，否则会报错。
通过Scrapy提供的Feed Exports，我们可以轻松地输出抓取结果到文件。对于一些小型项目来说，这应该足够了。不过如果想要更复杂的输出，如输出到数据库等，我们可以使用Item Pileline来完成。

使用Item Pipeline

如果想进行更复杂的操作，如将结果保存到MongoDB数据库，护着筛选某些有用的Item，则我们可以定义Item Pipeline来实现。
Item Pipeline为项目管道。当Item生成后，它会自动被送到Item Pipeline进行处理，我们常用Item Pipeline来做如下操作。

清理HTML数据。
验证爬取数据，检查爬取字段。
查重并丢弃重复内容。
将爬取结果保存到数据库。