【发布时间】:2013-08-14 11:17:37
【问题描述】:
我需要编写一个程序来收集不同的数据集并将它们联合起来。为此,我必须读取一个逗号分隔的矩阵:在这种情况下,每一行代表一个实例(在这种情况下是蛋白质),每一列代表实例的一个属性。如果实例有属性,则用 1 表示,否则用 0 表示。矩阵类似于下面给出的示例,但更大,有 35000 个实例和数百个属性。
Proteins,Attribute 1,Attribute 2,Attribute 3,Attribute 4
Protein 1,1,1,1,0
Protein 2,0,1,0,1
Protein 3,1,0,0,0
Protein 4,1,1,1,0
Protein 5,0,0,0,0
Protein 6,1,1,1,1
在将有关实例的其他信息写入新文件之前,我需要一种方法来存储矩阵。我想使用 numpy 数组,因为我希望能够选择和检查单列。我尝试使用 numpy.empty 创建给定大小的数组,但似乎您必须预先选择字符串的长度并且之后无法更改它们。
有没有更好的方法来处理这些数据?我也想到了列表字典,但我无法选择单列。
【问题讨论】:
标签: python arrays string numpy