【发布时间】:2017-08-29 14:54:11
【问题描述】:
我正在使用 Nutch 爬取一个网站,我想在爬取过程中收集所有 404 url。然后我查看了 Nutch wiki,我发现使用 nutch 命令'readdb'可以产生类似的东西:
http://xxx.yy.com/ 版本:7
状态:1(db_unfetched)
获取时间:2013 年 12 月 8 日星期日 21:42:34 CST
修改时间:Thu Jan 01 08:00:00 CST 1970
获取后重试次数:0
重试间隔:2592000秒(30天)
得分:1
签名:空
元数据:
并且所有 404 url 的状态都是 3。
我认为这些信息都来自 crawldb。那么有没有办法使用java代码读取crawldb?我还了解到 nutch 将数据存储在 HDFS 上,所以我需要使用 hadoop 工具来读取它们吗?或者有没有更好的方法来满足我的要求?
附:我的Nutch版本是1.13,我的运行环境是Ubuntu16.04
【问题讨论】: