【发布时间】:2017-03-21 00:51:33
【问题描述】:
假设我有这两个 Numpy 数组:
A = np.arange(1024 ** 2, dtype=np.float64).reshape(1024, 1024)
B = np.arange(1024 ** 2, dtype=np.float64).reshape(1024, 1024)
我对它们执行以下操作:
np.sum(np.dot(A, B))
现在,我希望能够使用 PySpark 使用相同的矩阵执行相同的计算,以便使用我的 Spark 集群实现分布式计算。
有谁知道或有一个在 PySpark 中执行这些操作的示例?
非常感谢您的帮助!
【问题讨论】:
-
似乎相关labs.yodas.com/…
-
也许,但不幸的是我无法将该解决方案应用于我的问题。它似乎使用不同的库,是一个基于单词/文本的问题。
-
那么您的矩阵是密集的还是稀疏的? A 和 B 真的是 1024×1024 还是更大?
-
感谢您的回复,kennytm。 A & B 可以更大,但 1024x1024 应该适用于我的测试。矩阵的大小真的不是我关心的。此外,这些是 numpy 数组,我相信它们可以很容易地转换为密集矩阵,所以如果需要的话,这样做很好。
标签: python numpy apache-spark pyspark