【发布时间】:2014-12-21 12:25:34
【问题描述】:
我必须使用某些关键字从新闻网站上抓取文章,我正在使用 Scrapy 来完成此任务,用于检查页面上是否存在关键字,或者我从页面中提取内容并搜索关键字。但是,当列表页面仅列出带有新闻页面链接的新闻时,我遇到了问题,例如http://www.thehindu.com/features/cinema/ ,我想转义这个页面,但是我找不到方法来检查它是否是一个列表页面。
【问题讨论】:
-
您需要添加更多细节才能引起注意。欢迎来到 SO
-
也许您想为列表页面和新闻页面使用不同的回调?
-
谢谢@Mr.777。我正在寻找的是某种类型的已实现算法,它可以建议特定网页是否只是提供指向其他页面的链接的列表页面或实际上是文章页面。
标签: python-2.7 scrapy web-crawler