【发布时间】:2012-02-17 09:29:21
【问题描述】:
我有一个包含 9 列的数据框,其中包含一系列因素。每行可以填充所有 9 列(因为该行包含 9 个“东西”),但大多数没有(大多数在 3-4 之间)。列也不是特定的,就像项目 200 显示在第 1 列和第 3 列中一样,它是同一件事。我想为包含所有因素的每一行创建一个二进制矩阵。
Ex(缩短为 4 列只是为了说明问题)
R1 3 4 5 8
R2 4 6 7 NA
R3 1 5 NA NA
R4 2 6 8 9
应该变成
1 2 3 4 5 6 7 8 9
r1 0 0 1 1 1 0 0 1 0
r2 0 0 0 1 0 1 1 0 0
r3 1 0 0 0 1 0 0 0 0
r4 0 1 0 0 0 1 0 1 1
我研究了 writeBin/readBin、K-clustering(这是我想做的事情,但我需要先摆脱 NA)、模糊聚类、标签聚类。只是有点迷失方向。
我尝试编写两个 for 循环,按列/行从矩阵中提取数据,然后将 0 和 1 分别保存在新矩阵中,但我认为存在范围问题。
你们是最棒的。谢谢!
【问题讨论】:
标签: r sparse-matrix cluster-analysis