PySpider基本架构一般了解
从on_start开始调用,
回调至index_page,(.doc)是一个pyquery请求解析函数
.items()是一个pyquery的API
self.crawl会生成一个request

Pyspider基本架构:
PySpider基本架构一般了解
1.scheduler :调度器, 调度程序从处理器的newtask_queue接收任务。确定任务是新任务还是需要重新爬网。
2.fetcher:请求器,发送请求;与 phantomjs结合使用,提供两种操作方式

3.processor:解析处理数据,URL则再度返回给scheduler
4.monitor&webui:提供果监视器和webUI界面

(1)CSS Selector Helper:启用Web视图的CSS Selector Helper。它获取您单击的元素的CSS Selector,然后将其添加到您的脚本中。
(2)Web:以浏览器呈现的方式查看页面(近似)
(3)html:查看当前回调的HTML(index_page,detail_page等)
(4)follows:
查看可以从当前回调中进行的回调。
index_page跟随视图将显示可以执行的detail_page回调。

(5)messages:
显示self.send_messageAPI 发送的消息。

(注意:
1.学会查看官方文档
2.查看****
3.实际操作
4.实时笔记,错误记录,报错整理,博客记录)

相关文章:

  • 2021-12-09
  • 2021-06-19
  • 2021-07-19
  • 2021-08-10
  • 2021-10-04
  • 2021-07-24
  • 2021-12-02
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-09-07
  • 2022-01-05
  • 2021-11-22
  • 2022-12-23
  • 2021-12-30
相关资源
相似解决方案