【发布时间】:2015-12-16 14:47:42
【问题描述】:
HDFS 不是必需的,但建议会出现在某些地方。
为了帮助评估运行 HDFS 所付出的努力:
将 HDFS 用于 Spark 工作负载有哪些好处?
【问题讨论】:
-
那么,您需要存储任何数据吗?
-
@SeanOwen 哈哈,是的。但是 Spark 不能只写入主机的 FS 吗?说 EXT4?
-
@BAR 自动弹性、自动分发、与其他在 HDFS 上运行良好的工具集成,仅举几例?我还认为 HDFS 旨在减少磁盘访问,这可能是在非分布式文件系统中需要大数据集的应用程序的瓶颈(以防您无法在 Spark 中缓存它)。
-
是的,您可以存储到本地存储,但是在分布式计算框架中这有什么用?
-
@kaktusito 分布和弹性是支持 HDFS 的坚实理由。
标签: hadoop apache-spark hdfs mesos mesosphere