【发布时间】:2016-01-14 11:32:52
【问题描述】:
我正在工作或者是一个非常独特的计算卸载解决方案,我可以用 c++/java 中的自定义编程很好地做到这一点,但我正在寻找可以在 hadoop 或任何其他框架中完成的相同操作?我搜索了很多,但没有发现任何有价值的东西。
据我们所知,使用 Map 和 Reduce 阶段制作的普通 hadoop 作业都在具有几乎相同功率的机器上运行,对于地图阶段,我们不需要功率并且可以卸载到像 RaspberryPI 这样的廉价商品硬件上,而 reduce 应该在强大的机器上运行。
那么是否可以隔离这两个阶段并使它们具有机器感知能力?
【问题讨论】:
-
我不确定您是否可以将 hadoop 配置为始终在不同主机上运行 map/reduce,但请考虑数据本地性,这是在同一主机上运行两个阶段的主要驱动程序
-
数据本地化在当今世界也是虚拟的,你不觉得吗?考虑我已经安装了一个大的 1tb 硬盘到 RPi?很有可能。
-
数据本地化是hadoop的主要功能,每个map/reduce作业都处理一小块数据,最好放在本地hdfs分区上
-
我想说的是,现在本地数据也被虚拟化并安装为 nfs。所以我可以将大硬盘连接到小 RPi 并在上面做地图工作。
标签: java hadoop mapreduce computation