【发布时间】:2018-12-07 00:55:03
【问题描述】:
有没有办法根据数据作业的大小(我的用例)动态扩展 Pod 的内存大小?
目前我们有使用内存量定义的 Job 和 Pod,但我们不知道给定时间片(有时 1000 行,有时 100,000 行)的数据量。
因此,如果数据大于我们预先分配的内存,它将中断。
我曾想过按数据量使用切片,即每 10,000 行切割一次,我们将知道处理固定数量的行的内存需求。但是我们试图按时间聚合,因此需要时间片。
或者任何其他解决方案,例如 kubernetes 上的 Spark?
另一种看待它的方式:
我们如何在 AWS 上的 Kubernetes 中实现 Cloud Dataflow
【问题讨论】:
标签: apache-spark kubernetes apache-spark-sql google-cloud-dataflow apache-beam