【发布时间】:2019-07-28 08:28:05
【问题描述】:
我有一个这样的数据分析器:
User Movie
0 1 2 3 4
0 2 0 5 0 0
1 0 1 0 0 0
2 0 5 5 5 0
从 1 到 5 是用户对电影的评论值,否则为零(无评论)。
我没有完整的列,数据都是稀疏的。(列中至少一个零)
我看到这会在数据中引入更多噪音,因为我有很多真正不需要的值。 消除这种噪音的方法有哪些?我记得用零代替,我可以使用中等值,在我以某种方式简化之后,但我不确定..
有什么建议吗?
【问题讨论】:
-
拥有不需要的值并不是真正的噪音,更像是混乱。你真正想达到什么目标?存储更高效?计算平均收视率?还有什么?
-
那么问题是如何存储一个稀疏矩阵?
-
对于大型数据集,scipy 和 numpy 有办法做到这一点。或者你可以简单地使用 dict,并且有一个评论 IFF 有一个关键——reviews[movie][user]
-
我从评论中尝试 ti 集群用户
-
@KennyOstrom 我已经创建了数据框,但是我有很多 0 在我的矩阵中添加了太多稀疏。我希望在使用一些数据科学技术之后删除这个值
标签: python matrix dataset sparse-matrix dimensionality-reduction