【发布时间】:2011-08-04 02:19:22
【问题描述】:
我有一个如下所示的文本文件:
gene1 gene2 gene3
a d c
b e d
c f g
d g
h
i
(每列是一个人类基因,每列包含可变数量的蛋白质(字符串,此处显示为字母),可以与这些基因结合)。
我要做的是计算每个字符串代表多少列,输出该数字和所有列标题,如下所示:
a 1 gene1
b 1 gene1
c 2 gene1 gene3
d 3 gene1 gene2 gene3
e 1 gene2
f 1 gene2
g 2 gene2 gene3
h 1 gene2
i 1 gene2
我一直试图弄清楚如何在 Perl 和 R 中做到这一点,但到目前为止还没有成功。感谢您的帮助。
【问题讨论】:
-
列是制表符分隔的,还是空格格式的?这将决定如何对待他们。