【问题标题】:What are the right tools for me for indexing and processing big data?哪些工具适合我用于索引和处理大数据?
【发布时间】:2015-04-30 16:59:01
【问题描述】:

我正在尝试索引和存储大数据,但我对使用哪些工具有点困惑。首先让我说我是这里的新手,对这个主题只有理论知识。我想:

1) 使用 Hadoop(绝对)

2) 使用三台不同的 PC 从平面文件中提取日志数据

3) 将数据转换为结构化形式并加载到 HDFS 中以进行索引和 mapreduce。

我的问题是:

a) 在尝试索引三个字段时,是否可以 map-index-map-index-map-index-reduce?如果没有,索引是如何完成的?如果可能按顺序解释(例如 index-map-reduce)

b) 从提取到存储的正确工具有哪些?

c) 可以使用 Hadoop 进行简单搜索,还是必须使用其他工具,例如 lucene/solr?

d) 在经过 MapReduce 阶段之前,是否必须将数据转换为结构化形式,例如使用 PDI?

【问题讨论】:

  • 大话题,没有“简单”的答案。建议:谷歌:Hadoop 开源分析

标签: hadoop indexing mapreduce


【解决方案1】:

如果您希望索引一些存储在 hadoop 中的数据,那么 Cloudera Search 是您的完美用例。链接:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html

我目前在 Goibibo.com 使用它来索引日志数据。您可以使用它来实时索引数据,也可以在 map reduce 模式下使用。在内部,它使用 Solr 来索引并完全适合您的用例。您还可以通过 Hue 公开索引集合。

【讨论】:

  • 文件未存储在 hadoop 中。我正在尝试从平面文件传输到 hadoop。什么是最好的工具?另外,我描述的索引方法是否可行?
  • 由于您将文件传输到 hadoop,您可以动态索引文件(使用 Flume)或在 mapreduce 模式下索引它们。只需阅读有关 cloudera 搜索的内容一次,您就会知道。
  • 非常感谢您提供此信息。我认为 cloudera 搜索正是我所需要的,但我想明确一些事情;安装 Cloudera 搜索后,是否需要安装任何其他工具才能完成任务?我是否需要再次安装 hadoop、ETL 工具、solr 等?另外,请您告诉我这些工具将扮演的角色,从从源文件中提取数据,到处理后的搜索。
  • 看看你是否安装了 Hadoop,你不需要任何额外的东西。如果要实时索引日志,则需要 Flume,否则不需要。现在 Hue 是另一个工具,如果您想通过 UI 公开它,它会很有用。同样,这不是必需品。
【解决方案2】:

我建议使用弹性搜索或太阳能来索引大数据。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-11-10
    • 1970-01-01
    • 2011-06-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多