【发布时间】:2019-07-25 13:21:04
【问题描述】:
在尝试使用 spark jdbc 连接读取大型 oracle 表时,即使启用了动态分配并且作业被卡在那里,也只有一个执行程序正在调用
我正在运行一个 spark 应用程序来读取两个 oracle 表 -
1) 对于我正在运行具有动态资源分配的 spark 提交应用程序的小表,它会创建 15 个执行程序并在 2 分钟内完成 100 条记录
2) 对于同样使用相同配置的大表,但作业仅在单个 executor 上执行 4 小时,它并没有增加
numpartitions 为 10,但仍使用一个执行器
spark-submit --master yarn-cluster --driver-cores 2 --driver-memory 2G --jars /tmp/ojdbc8.jar --master yarn /tmp/vol_1.py location --executor-memory 12G --executor-cores 5
这是火花限制吗?读取总是发生在单个 executor 上吗?
【问题讨论】:
标签: apache-spark