【问题标题】:python where can I find JOBDIR variablepython 在哪里可以找到 JOBDIR 变量
【发布时间】:2014-02-18 13:38:38
【问题描述】:

根据How Scrapy filters the crawled urls?这个问题,在JOBDIR变量定义的目录中有一个名为requests.seen的文件

请问在哪里可以找到 JOBDIR 变量?

【问题讨论】:

  • 你试过print JOBDIR吗?
  • @MattDMo 我有未定义的变量

标签: python python-2.7 scrapy


【解决方案1】:

根据official tutorial(Jobs: pausing and resuming crawls)JOBDIR可以从命令行设置:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

【讨论】:

  • 我运行了我的蜘蛛,是的,文件已经生成,但是当我打开它时,我没有找到抓取的 URL。相反,我发现像这样的行 f6b696ffa8fbcd8fbd4eff777ba677091858a9c7 为什么拜托?
  • 请问是抓取网址的指纹吗?
  • @MarcoDinatsoli 在此目录中,scrapy 将存储所有必需的数据以保持单个作业(即蜘蛛运行)的状态,即计数器、偏移量但不是抓取的 url 列表...
  • 我在找什么,是抓取的网址列表,请问在哪里可以找到?我感觉这个文件包含它
  • @MarcoDinatsoli 看这里stackoverflow.com/questions/3871613/… 或类似问题
猜你喜欢
  • 1970-01-01
  • 2017-10-08
  • 2021-08-17
  • 1970-01-01
  • 2014-09-19
  • 1970-01-01
  • 2013-09-11
  • 2012-11-30
  • 2011-08-22
相关资源
最近更新 更多