【发布时间】:2019-07-25 10:13:50
【问题描述】:
我正在尝试根据(我的集群的)节点数拆分我的数据帧,
我的数据框看起来像:
如果我有 node=2 和 dataframe.count=7 :
因此,应用迭代方法,拆分的结果将是:
我的问题是:我该怎么做?
【问题讨论】:
-
您的预期结果是什么?集群上的两个对象(即两个数据框)还是一个数据均匀分布的对象?
-
我的预期结果是根据节点数拆分我的数据帧块(即,如果我的数据帧中有 10 行和 3 个节点,第一个节点将占用 3 行,第二个需要 3 lines ,3d 需要 3 行,最后一行将在一个节点中(迭代方法)
-
但是你想要多少个对象?四个或三个对象还是只有一个?
-
如果你的意思是一个对象是一个数据框,我想要一个数据框(大小可变)
标签: python-3.x pyspark nodes cluster-computing