【发布时间】:2014-02-09 00:49:00
【问题描述】:
我有一个像这样的巨大的.csv 文件:
Transcript Id Gene Id(name) Mirna Name miTG score
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p 1
UTR3 21:30717114-30717142 0.05994568
UTR3 21:30717414-30717442 0.13591267
ENST00000345080 ENSG00000187772 (LIN28B) hsa-let-7a-5p 1
UTR3 6:105526681-105526709 0.133514751
我想从中构建一个这样的矩阵:
Transcript Id Gene Id(name) Mirna Name miTG score UTR3 MRE_score
ENST00000286800 ENSG00000156273 (BACH1) hsa-let-7a-5p 1 21:30717414-30717442 0.13591267
我想在我的新矩阵中添加三个新列,名为UTR3、MRE_score 和CDS。
对于每个Gene ID(例如ENST00000286800),原始矩阵中有几个UTR3(这里两个UTR3 对应ENST00000286800,一个UTR3 对应ENST00000345080)我们选择第三列中得分最高的UTR3。在新矩阵中,每个Gene ID 的UTR3 的值将是原始矩阵第二列中UTR3 的值。
任何机构可以帮助我重塑这些数据并构建我的新矩阵吗?
【问题讨论】:
-
你让自己陷入了相当痛苦的境地;责任在于创建该“csv”文件的任何人或任何人。您对创建它的过程有任何控制吗?在那里修复它听起来是一个更好的主意(如果可以的话)。如果是这样,我们可以向您展示文件的外观,以便您可以使用
read.csv轻松加载它,并过滤每个基因的最佳UTR3记录。 -
不,是别人创建的,我无法控制它! P