【问题标题】:Apache Nutch index only article pages to SolrApache Nutch 仅索引 Solr 的文章页面
【发布时间】:2020-08-25 02:25:38
【问题描述】:

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样,高层可以有两种类型的网页。首先是类别页面或主页,不包含任何特定故事的详细信息,但提供多个页面的链接和短文本。其次,有些页面包含完整故事的详细信息,即文章。

现在我的问题是如何确定这是实际的文章页面,而该页面是类别页面。此外,我也有兴趣仅索引故事页面?

我认为 Nutch 默认没有任何东西。我怎样才能实现这种行为?

【问题讨论】:

    标签: solr web-crawler nutch web-mining nutch2


    【解决方案1】:

    核心问题归结为如何识别文章/故事页面与主页或类别页面。这通常非常特定于域,并且可能取决于很多因素(在服务器端重写规则或使用的 CMS 等)。

    如果您对要抓取的域相当熟悉,也许您可​​以使用正则表达式来区分不同类型的页面。假设您可以使用正则表达式(或 NutchDocument 中存在的其他字段)来区分页面,您应该能够使用 index-jexl-filter 插件选择性地仅索引那些文章页面。

    我会说通常您不会希望完全跳过类别页面(或主页),因为这些类型的页面通常是您抓取的新链接的良好来源。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-10-01
      • 1970-01-01
      • 2016-05-26
      • 2023-03-27
      • 1970-01-01
      • 2015-01-31
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多