【发布时间】:2017-07-06 08:43:50
【问题描述】:
我有一个关于 Nutch 获取链接以更新 crawldb 的方式的问题。
有问题的命令是bin/nutch updatedb crawl/crawldb $s1
我需要编写一个自定义解析器,在此之前我已经检查了 Nutch 的源代码,就我而言,我负责提供更新 crawldb 的链接,方法是从文档中提取它并将其放入在 ParseData 中作为 Outlink[]。至少这是我从this 那里了解到的。
如果我错了,请纠正我,因为我不希望我的爬虫在第一次迭代后停止,因为它没有更新 crawldb 的链接。
【问题讨论】:
标签: java apache parsing html-parsing nutch