使用 Scrapy 爬取新闻网站时转义新闻列表页面答案

【问题标题】：Escape a news listing page while crawling a news website with Scrapy使用 Scrapy 爬取新闻网站时转义新闻列表页面
【发布时间】：2014-12-21 12:25:34
【问题描述】：

我必须使用某些关键字从新闻网站上抓取文章，我正在使用 Scrapy 来完成此任务，用于检查页面上是否存在关键字，或者我从页面中提取内容并搜索关键字。但是，当列表页面仅列出带有新闻页面链接的新闻时，我遇到了问题，例如http://www.thehindu.com/features/cinema/ ，我想转义这个页面，但是我找不到方法来检查它是否是一个列表页面。

【问题讨论】：

您需要添加更多细节才能引起注意。欢迎来到 SO
也许您想为列表页面和新闻页面使用不同的回调？
谢谢@Mr.777。我正在寻找的是某种类型的已实现算法，它可以建议特定网页是否只是提供指向其他页面的链接的列表页面或实际上是文章页面。

标签： python-2.7 scrapy web-crawler

【解决方案1】：

有几种方法可以实现这个功能。

可以在spider的parse函数中使用正则表达式过滤listing页面url；

def parse(self, response):
    list_page_pat = re.compile("your pattern")
    for url in extract_urls:
        if list_page_pat.match(url) is None:
           //continue process

【讨论】：

我需要一种通用的方式来避免列出页面，因为它们不包含文章，而只是指向新闻文章的链接。在您的方法中，它明确需要模式，但这里的问题是模式未知。我正在寻找的是一些算法，它可以识别它是一个 lising 页面还是一个文章页面。