【发布时间】:2016-07-01 17:50:35
【问题描述】:
在我的场景中,我有一个 Spark 以独立模式运行,其中许多工作节点具有几乎无限的 RAM。
在我的场景中,我将数据加载到驱动程序 (Apache Zeppelin) 中,然后从中创建 RDD 和 DataFrame。数据大小超过驱动程序的RAM。
如何加载该数据(从驱动程序进程)并从中创建 DataFrame?
举个例子会很有帮助!
【问题讨论】:
-
很抱歉,我并没有真正明白你的问题。 “无限 RAM”和“数据超出 RAM”对我来说是相互矛盾的概念。请阅读如何在 SO 上提出问题并查看您的问题!由于不清楚,我现在投票关闭它。
-
“无限”内存在worker上,有限内存在驱动程序上。
标签: apache-spark