python爬虫备忘（5）

今天开始学习python爬虫的scrapy库，它是一个爬虫框架，用户通过配置可以对规模较大的网站进行爬取。

它通过命令行的形式来进行调用。

5+2结构：

python爬虫备忘（5）

常见指令：

python爬虫备忘（5）

建立一个目录：

python爬虫备忘（5）

init和items不需用户编写。

然后可以生成一个名为demo的爬虫文件。

python爬虫备忘（5）

可以看到spider目录下生成了一个demo.py文件。

python爬虫备忘（5）

name是爬虫的名字，allowed_domains是要爬取的域名，下面start开头的是爬取的初始页面，可以是一个或多个。

下面的parse方法是留给用户编写的解析界面的方法，用于处理响应，解析内容形成字典，然后提取页面中新的URL。

response相当于从网页中返回的内容所对应的对象。

python爬虫备忘（5）

提取网页信息保存为本地的HTML。从网页返回对象的名字保存为HTML文件的名字。