Scrapy - 如何每天抓取新页面答案

【问题标题】：Scrapy - How to scrape daily for new pagesScrapy - 如何每天抓取新页面
【发布时间】：2012-10-26 02:29:09
【问题描述】：

我正在评估 scrapy 是否适合我。我想要的只是每天抓取几个体育新闻网站以获取最新的头条新闻，并提取标题、日期和文章正文。我不关心文章正文中的链接，我只想要正文。

据我了解，抓取是一次性的工作，它会根据找到的链接抓取整个网站。我不想锤网站，我也不想爬整个网站；只有体育版块，只有头条新闻。

所以总而言之我想要scrapy到

每天查找与昨天不同的新闻文章来自指定域
提取新文章的日期、时间和正文
将结果保存到数据库中

是否有可能做到这一点，如果可以，我将如何做到这一点。我已经阅读了教程，但似乎他们描述的过程会将整个站点作为一次性工作进行搜索。

【问题讨论】：

标签： html-parsing web-scraping scrapy

【解决方案1】：

查看deltafetch 中间件，它是scrapinghub 发布的scrapy library of addons 的一部分。它将生成项目的页面的 url 存储在磁盘上，并且不会再次访问它们。它仍然允许scrapy 访问其他页面（通常需要它来查找项目页面）。这是一个非常简单的示例，可以根据您的特定需求进行定制。

您需要在启用此中间件的情况下每天运行爬网（例如，使用 cron）。

【讨论】：

请问如何使用deltafetch？显示我设置了重复的自定义类来扩展 deltafetch，然后自定义我想要的内容？