【发布时间】:2017-09-22 14:27:44
【问题描述】:
我尝试从这个数据框开始做以下事情
Chr Gene.Symbols
2 chr1 GSTM1
3 chr2 MIR4432
4 chr2 BCL11A
5 chr2 PAPOLG
6 chr2 LINC01185
7 chr2 LINC01185
8 chr2 LINC01185, REL
9 chr2 REL
10 chr2 REL
11 chr2 REL
12 chr2 REL
13 chr2
14 chr2 PUS10
15 chr2 PEX13, KIAA1841
我想要这个结果:
Chr Gene.Symbols
2 chr1 GSTM1
3 chr2 MIR4432,BCL11A,PAPOLG,LINC01185,REL,PUS10,PEX13,KIAA1841
我已经设法将基因符号聚合在一起使用:
aggregate(Gene.Symbols~Chr, data, paste, collapse = ",")
我从 this one 等其他问题中了解到,但我无法删除重复项。
有人可以帮帮我吗?
更新: 我还需要一个文件,每行只有一个基因名称(没有“Chr”列)。如何转置基因名称? 我现在从一个文件开始,该文件的行数与 Chr 一样多,每一行在 Gene.Symbols 列中有多个基因。
【问题讨论】:
-
在第 8 行,
LINC01185, REL或LINC01185,也在第 15 行PEX13, KIAA1841或PEX13 -
@Sotos 我认为这个问题与“重复”的问题有点不同
-
@Wen 嗯...我刚刚注意到
LINC01185, REL和REL。你说得对,我会重新打开