【发布时间】:2019-03-29 02:40:42
【问题描述】:
我有很多项目的 RDD,只是简化它喜欢:
[0,1,2,3,4,5,6,7,8,9]
并将这些项目提交到批处理 API(API.post(a[]))。但 API 限制了最大批次(exp. 3)。
所以为了获得最佳性能,我需要将 RDD 迭代器尽可能地转换为 limit Array:
[[0,1,2], [3,4,5], [6,7,8], [9]]
我使用 Spark Java 将数据推送到 API。
rdd.foreach(a -> { API.post(a)}
我的问题是如何改造它?
【问题讨论】:
标签: apache-spark rdd