【发布时间】:2012-10-26 02:29:09
【问题描述】:
我正在评估 scrapy 是否适合我。我想要的只是每天抓取几个体育新闻网站以获取最新的头条新闻,并提取标题、日期和文章正文。我不关心文章正文中的链接,我只想要正文。
据我了解,抓取是一次性的工作,它会根据找到的链接抓取整个网站。 我不想锤网站,我也不想爬整个网站;只有体育版块,只有头条新闻。
所以总而言之我想要scrapy到
- 每天查找与昨天不同的新闻文章 来自指定域
- 提取新文章的日期、时间和正文
- 将结果保存到数据库中
是否有可能做到这一点,如果可以,我将如何做到这一点。我已经阅读了教程,但似乎他们描述的过程会将整个站点作为一次性工作进行搜索。
【问题讨论】:
标签: html-parsing web-scraping scrapy