今天开始学习python爬虫的scrapy库,它是一个爬虫框架,用户通过配置可以对规模较大的网站进行爬取。

它通过命令行的形式来进行调用。

5+2结构:

python爬虫备忘(5)

常见指令:

python爬虫备忘(5)

建立一个目录:

python爬虫备忘(5)

python爬虫备忘(5)

init和items不需用户编写。

然后可以生成一个名为demo的爬虫文件。

python爬虫备忘(5)

可以看到spider目录下生成了一个demo.py文件。

python爬虫备忘(5)

name是爬虫的名字,allowed_domains是要爬取的域名,下面start开头的是爬取的初始页面,可以是一个或多个。

下面的parse方法是留给用户编写的解析界面的方法,用于处理响应,解析内容形成字典,然后提取页面中新的URL。

response相当于从网页中返回的内容所对应的对象。

python爬虫备忘(5)

提取网页信息保存为本地的HTML。从网页返回对象的名字保存为HTML文件的名字。


相关文章:

  • 2021-12-28
  • 2021-12-12
  • 2021-08-24
  • 2021-12-29
  • 2022-02-07
  • 2021-09-07
  • 2022-12-23
  • 2021-11-18
猜你喜欢
  • 2021-09-02
  • 2021-06-08
  • 2022-01-03
  • 2022-12-23
  • 2021-10-19
  • 2021-05-31
  • 2022-01-11
相关资源
相似解决方案