【发布时间】:2015-02-02 19:42:51
【问题描述】:
我想对 5 个文件执行 Apache Spark map-reduce 并将它们输出到 mongodb。我宁愿不使用 HDFS,因为 NameNode 是单点故障 (http://wiki.apache.org/hadoop/NameNode)。
A.是否可以在 RDD 中读取多个文件,对所有文件中的一个键执行 map 缩减,并使用 casbah 工具包将结果输出到 mongodb
B.是否可以使用客户端从 mongodb 读取到 RDD,使用 casbah 工具包执行 map reduce 并正确输出回 mongodb
C.是否可以在 RDD 中读取多个文件,将它们与 mongodb 中存在的键映射,将它们简化为单个文档并将它们插入回 mongodb
我知道使用 mongo-hadoop 连接器可以实现所有这些。我只是不喜欢使用 HDFS 的想法,因为它是单点故障并且 backUpNameNodes 尚未实现。
我在网上看了一些东西,但不是很清楚。
MongoDBObject not being added to inside of an rrd foreach loop casbah scala apache spark
不确定那里发生了什么。 JSON 甚至看起来都不是有效的......
资源:
【问题讨论】:
标签: mongodb scala apache-spark casbah