【发布时间】:2020-07-03 09:09:48
【问题描述】:
我正在尝试将 60gb 表数据加载到 spark python 数据帧中,然后将其写入配置单元表中。
我已将驱动程序内存、执行程序内存、最大结果大小设置为足以处理数据。但是当我使用命令行中提到的所有上述配置运行 spark submit 时,我遇到了错误。
注意:通过 spark python shell(通过在启动 shell 时指定驱动程序和执行程序内存),我能够填充目标 hive 表。
有什么想法吗??
【问题讨论】:
标签: apache-spark hadoop pyspark hive bigdata