【发布时间】:2010-08-20 12:34:37
【问题描述】:
我想为 nutch 编写自己的 HTML 解析器插件。 我正在通过生成仅落在特定 xpath 中的外链来进行集中爬行。 在我的用例中,我想根据当前的爬网深度从 html 页面中获取不同的数据。所以我需要知道我正在解析的每个内容的 HtmlParser 插件的当前深度。
Nutch 可以吗?我看到 CrawlDatum 没有 crawl_depth 信息。 我正在考虑在另一个数据结构中使用信息图。 有人有更好的主意吗?
谢谢
【问题讨论】:
标签: nutch