【问题标题】:Need suggestion on using Map/Reduce to create solr index需要关于使用 Map/Reduce 创建 solr 索引的建议
【发布时间】:2012-05-18 03:40:40
【问题描述】:

我对 Map/Reduce 世界还很陌生,我正在尝试评估最佳选择,以确定是否可以利用它在 Solr 中创建索引。目前,我正在使用常规爬网来获取数据并直接在 Solr 中对其进行索引。这工作没有任何问题。

但展望未来,我们需要访问 Amazon S3 中的大量数据。目前 S3 中存储了大约 500 万条数据,需要对其进行索引。我正在考虑使用 Amazon Elastic Map/Reduce (EMR) 直接从 S3 访问内容,然后在 Solr 中创建索引。数据结构简单,url(唯一)是S3 key,value是一个XML文件。 url 将用作 Solr 中的 doc id,而 XML 数据的相关部分将作为字段存储在 Solr 索引中。

我的问题是 EMR 是否是正确的方法?任务是从 S3 访问数据,从 XML 中提取某些元素,进行一些处理,然后调用 Solr API 来生成索引。在索引数据之前,处理部分需要几个类,可能是命令模式链。这是可以实现的吗? Doo 我需要一个减速器还是可以使用映射器来完成这个过程?如果需要减速器,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指示将不胜感激。

谢谢

【问题讨论】:

    标签: solr amazon-s3 mapreduce elastic-map-reduce emr


    【解决方案1】:

    您可以尝试使用 MapReduceIndexer 工具。 您可以从 apache-sole 下载它。 它是 contrib 模块的一部分。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-01-04
      • 2019-04-21
      • 2021-12-01
      • 2016-04-28
      • 1970-01-01
      • 2018-01-05
      • 1970-01-01
      • 2012-02-02
      相关资源
      最近更新 更多