【问题标题】:large sparse matrix, svd with spark,python大型稀疏矩阵,带火花的 svd,python
【发布时间】:2023-03-25 01:20:02
【问题描述】:

我想在 spark 上分析数据。如果 python 不起作用,我需要 svd 矩阵来使用 python 或 scala 实现推荐算法。但数据又大又稀疏。

数据中有两列。一个是用户名,另一个是项目名称。 如果用户和项目在一行中,则表示用户喜欢该项目。 有 700k 个项目和 20k 个用户。所以它会出现内存错误。

如何处理

【问题讨论】:

    标签: apache-spark svd


    【解决方案1】:

    我建议你在 scipy csr matrix 下加载数据。

    存储稀疏矩阵比使用 numpy 高效得多。

    最好的。

    【讨论】:

      猜你喜欢
      • 2014-07-14
      • 2023-03-02
      • 2011-06-24
      • 1970-01-01
      • 2014-03-09
      • 2021-09-22
      • 2015-03-01
      • 2013-06-09
      • 2012-06-17
      相关资源
      最近更新 更多