【发布时间】:2017-09-22 05:20:50
【问题描述】:
我想知道是否可以根据条件(例如发布的日期或时间)过滤获取的 url。我知道我们可以通过regex-urlfilter 过滤网址以进行获取。
就我而言,我不想索引旧文档。因此,如果一份文件在 2017 年之前发布,那么它必须被拒绝。是否需要任何日期过滤插件或它已经可用!
任何帮助将不胜感激。提前致谢。
【问题讨论】:
标签: java web-scraping web-crawler nutch
我想知道是否可以根据条件(例如发布的日期或时间)过滤获取的 url。我知道我们可以通过regex-urlfilter 过滤网址以进行获取。
就我而言,我不想索引旧文档。因此,如果一份文件在 2017 年之前发布,那么它必须被拒绝。是否需要任何日期过滤插件或它已经可用!
任何帮助将不胜感激。提前致谢。
【问题讨论】:
标签: java web-scraping web-crawler nutch
如果您只想避免索引旧文档,您可以编写自己的IndexingFilter 来检查您的状况并避免对文档进行索引。您没有提及您的 Nutch 版本,但假设您使用的是 v1 we have a new PR(它将为下一个版本做好准备),它将使用 JEXL 表达式开箱即用地提供此功能,以允许/防止文档被索引.
如果你能拿到 PR 并对其进行测试并提供一些反馈,那就太棒了!
如果需要,您可以编写自己的自定义插件,并且可以检查 mimetype-filter 是否与您想要的内容相似(在这种情况下,我们会根据 mimetype 应用过滤)。
还有一个警告,目前 Nutch 使用的 fetchTime 或 modifiedTime 来自网络服务器在获取资源时发送的标头,请记住这些值不应被信任(除非你 100% 确定)因为在大多数情况下你会得到错误的日期。 NUTCH-1414 提出了一种更好的方法来从页面内容中提取发布日期,或者您可以实现自己的解析器。
请记住,使用这种方法您仍然可以获取/解析旧文档,您只需跳过索引步骤。
【讨论】: