【发布时间】:2013-10-03 11:54:02
【问题描述】:
我正在处理一个非常大的稀疏矩阵格式的数据集。
数据具有归档格式(3个制表符分隔的列,其中第一列中的字符串对应一行,第二列中的字符串对应属性,第三列中的值是加权分数)。
church place 3
church institution 6
man place 86
man food 63
woman book 37
我想使用 awk(如果可能的话)将其转换为 arff 格式,以便使用上述作为输入,我可以获得以下输出:
@relation 'filename'
@attribute "place" string
@attribute "institution" string
@attribute "food" string
@attribute "book" string
@data
3,6,0,0,church
86,0,63,0,man
0,0,0,37,woman
我已经看到这个 awk 文件完成了HERE,它产生的结果与我需要的非常相似。 但是,输入有点不同。我试图通过更改 FS = "|" 来操纵提供的代码到“\t”,但它不会产生预期的结果。 有没有人建议我如何操纵这个 awk 代码将我的输入转换为我想要的输出?
【问题讨论】: