【问题标题】:Is there equivalent to python tile in Spark?Spark中有相当于python tile的东西吗?
【发布时间】:2016-11-18 11:05:48
【问题描述】:

我在 python 中有一个 numpy 数组,我想复制它自己,因此我使用了 tile(array(x), (2, 1))

这,给定一个数组[1,2,3] 将返回[[1,2,3],[1,2,3]]

但在 pySpark 中,我有一个 pipelineRDD。 为此目的是否有相应的功能? 我找不到它。

谢谢

【问题讨论】:

    标签: python arrays apache-spark duplicates tile


    【解决方案1】:

    没有等价物:

    • RDD 是本地对象的分布式集合。
    • RDD 不能包含另一个 RDD。
    • 本地对象受限于内存大小,不能用于存储完整 RDD 的内容。

    您可以使用以下方法在一维中重复 RDD:

    sc.union([rdd for _ in range(n))
    

    相当于

    np.tile(a, n)
    

    其中 n 是一个标量。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-05-31
      • 2019-11-18
      • 2016-06-03
      • 1970-01-01
      • 2011-06-19
      • 2021-09-23
      相关资源
      最近更新 更多