zgl19991001

1.创建爬虫: 

  scrapy genspider爬虫名 域名

  注意:爬虫的名字不能和项目名相同

2.  scrapy list    --展示爬虫应用列表

   scrapy crawl爬虫应用名称     ---运行单独爬虫应用

   使用scrapy框架爬取糗事百科段子:

      使用命令创建一个爬虫:

       scrapy gensipder qsbk \'\'qiushibaike.com\'\'

      创建一个名字叫做qsbk的爬虫,并且能爬取的网页只会限制在qiushibaike.com这个域名下。

3.  name:这个爬虫的名字,名字必须是唯一的。

   allow_domains:允许的域名。爬虫只会爬取这个域名下的网页,其他不是这个域名的网页会被自动忽略。

    start_urls:爬虫从这个变量中的url开始。

    parse:引擎会吧下载器下载回来的数据扔给爬虫解析,爬虫在吧数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个,第一个是提取想要的数据。第二个是生产下一个请求的url.

分类:

技术点:

相关文章:

  • 2022-12-23
  • 2021-12-29
  • 2021-04-27
  • 2022-01-07
  • 2022-01-05
  • 2022-12-23
  • 2021-05-30
  • 2021-06-04
猜你喜欢
  • 2021-05-03
  • 2021-05-03
  • 2021-12-08
  • 2021-08-12
  • 2021-12-12
  • 2021-12-22
相关资源
相似解决方案