【发布时间】:2015-04-30 16:59:01
【问题描述】:
我正在尝试索引和存储大数据,但我对使用哪些工具有点困惑。首先让我说我是这里的新手,对这个主题只有理论知识。我想:
1) 使用 Hadoop(绝对)
2) 使用三台不同的 PC 从平面文件中提取日志数据
3) 将数据转换为结构化形式并加载到 HDFS 中以进行索引和 mapreduce。
我的问题是:
a) 在尝试索引三个字段时,是否可以 map-index-map-index-map-index-reduce?如果没有,索引是如何完成的?如果可能按顺序解释(例如 index-map-reduce)
b) 从提取到存储的正确工具有哪些?
c) 可以使用 Hadoop 进行简单搜索,还是必须使用其他工具,例如 lucene/solr?
d) 在经过 MapReduce 阶段之前,是否必须将数据转换为结构化形式,例如使用 PDI?
【问题讨论】:
-
大话题,没有“简单”的答案。建议:谷歌:Hadoop 开源分析