【发布时间】:2018-10-21 19:36:51
【问题描述】:
我的 Java spark 程序提取了一个 3.7 GB 的文件。 当我启动 spark 程序并转到端口 localhost:4040 上的 Spark UI 时 加载阶段显示的输入大小为 7.3 GB???这真是令人困惑。为什么 Spark UI 控制台中显示的输入大小几乎是提取的实际文件大小的两倍?
【问题讨论】:
-
您可能在实际文件中有更好的压缩或序列化。
-
它只是一个普通的 3.7 GB csv 文件。
标签: apache-spark apache-spark-sql