【发布时间】:2016-09-24 18:58:46
【问题描述】:
我有一个包含两列的文本文件(也许它只是标签?)。其中一列的数据如下所示:TC012950_CDS_3428_4122
第一个数字是 TC#,第二个 CDS,第三个起始位置,第四个结束位置。
另一列有一个像这样的值:11.93631
我有另一个文本文件,其中包含按制表符拆分的染色体信息:
ChLG10 蛋白编码 mRNA 3428 5582 。 - 。 TC012950
我的首要目标是最终将染色体名称 (ChLG10) 合并到第一个文件的列中,如下所示:
TC012950_ChLG10_3428_4122
第二列仍包含其原始值。
我尝试将数据放入数组或数据框中,但随后我很难拆分第一列。我不断收到错误说替换有 0 行之类的。因此,我希望也许这里有人可以为我指明正确的方向。
如何使用 _ 将第一列拆分为多列?有没有办法将它们分成标签? 之后,我需要将每一行与其他数据中的对应行进行匹配,这样我就可以将 Chr Location 列放在 TC# 和 CDS 列之间。一旦它位于正确的位置,那么我需要将所有列重新合并在一起并用_分隔。我在想如果我用标签做了什么,那么我会再次用_替换标签吗?欢迎任何建议或帮助。提前非常感谢您!
【问题讨论】:
-
有无数种方法可以满足您的要求,但我们需要一些数据。