【发布时间】:2016-12-27 06:35:45
【问题描述】:
我试图简单地说,当 spark 通过驱动程序提取数据时,以及当 spark 不需要通过驱动程序提取数据时。
我有 3 个问题 -
- 假设您有一个存储在 HDFS 中的 20 TB 平面文件文件,您可以使用相应库的开箱即用功能之一(
sc.textfile(path)或 @ 987654322@等)。如果驱动程序仅使用 32 GB 内存运行,是否会导致驱动程序出现 OOM?或者至少有司机吉姆的交换?或者 spark 和 hadoop 是否足够聪明,可以将来自 HDFS 的数据分发到 spark 执行器中,从而在不通过驱动程序的情况下生成数据帧/RDD? - 除了来自外部 RDBMS 之外,与 1 完全相同的问题?
- 除了来自特定节点文件系统(仅 Unix 文件系统,20 TB 文件但不是 HDFS)之外,与 1 完全相同的问题?
【问题讨论】:
-
我已经看到前两个..大数据,大于驱动程序内存没有给出任何错误。所以是的,前两个。如果说第三个不起作用,您可以随时将其推送到 HDFS,然后这将是第一个问题。事实上,尽管数字从 1 到 3,但您有 2 个问题。
标签: hadoop apache-spark apache-spark-sql spark-dataframe data-ingestion