【发布时间】:2016-11-18 11:05:48
【问题描述】:
我在 python 中有一个 numpy 数组,我想复制它自己,因此我使用了
tile(array(x), (2, 1))
这,给定一个数组[1,2,3] 将返回[[1,2,3],[1,2,3]]
但在 pySpark 中,我有一个 pipelineRDD。 为此目的是否有相应的功能? 我找不到它。
谢谢
【问题讨论】:
标签: python arrays apache-spark duplicates tile
我在 python 中有一个 numpy 数组,我想复制它自己,因此我使用了
tile(array(x), (2, 1))
这,给定一个数组[1,2,3] 将返回[[1,2,3],[1,2,3]]
但在 pySpark 中,我有一个 pipelineRDD。 为此目的是否有相应的功能? 我找不到它。
谢谢
【问题讨论】:
标签: python arrays apache-spark duplicates tile
没有等价物:
您可以使用以下方法在一维中重复 RDD:
sc.union([rdd for _ in range(n))
相当于
np.tile(a, n)
其中 n 是一个标量。
【讨论】: