【发布时间】:2011-09-12 17:18:43
【问题描述】:
我正在尝试评估 Nutch/Solr/Hadoop 是否适合我的任务。
PS:之前我尝试将 Nutch (1.4) 和 Hadoop 集成,看看它是如何工作的。
这是我想要实现的总体目标, a) 从种子 URL 开始并抓取和解析/保存数据/链接 --Nutch 爬虫会做什么。
b) 然后能够从 Java 客户端查询爬取的索引 ---(可能正在使用 SolrJ 客户端)
c) 由于 Nutch(从 1.4.x 开始)已经在内部使用 Hadoop。我将只安装 Hadoop 并在 nutch-**.xml 中进行配置
d) 我希望 Nutch 将爬取的索引保存到 Amazon S3 以及 Hadoop 以使用 S3 作为文件系统。 这甚至可能吗?甚至值得吗?
e) 我在其中一个论坛上读到,在 Nutch 2.0 中,有一个使用 GORA 的数据层可以将索引保存到 HBase 等。当 2.0 版本到期时我不这样做。 :-( 有没有人建议抓住 2.0 “inprogress” 主干并开始使用它,希望迟早能得到一个发布的库?
PS:我仍在试图弄清楚 Nutch 如何/何时/为什么/在何处在内部使用 Hadoop。我只是找不到任何书面文档或教程。非常感谢这方面的任何帮助。
如果您正在阅读这一行,那么非常感谢您到目前为止阅读这篇文章:-)
【问题讨论】:
标签: solr amazon-s3 hadoop nutch