【发布时间】:2014-05-13 23:36:11
【问题描述】:
我想从数据框中的列中提取特定信息并将其添加到同一数据框中的新列中。复杂之处在于,某些行根本没有我想要提取的信息(“UniProt:”之后的 6 个字符),而其他行则有多次出现 - 我希望这些行相应地显示,因为此列包含标识符在我的数据框中。
这是一个例子;我从我的数据框中复制了几行 Fasta.headers 列:
第 1 行:
H05C05.1c;CE43771;WBGene00019157;状态:Partially_confirmed;UniProt:H2L0A8;protein_id:CCD72193.1;>H05C05.1a;CE37385;WBGene00019157;状态:Partially_confirmed;UniProt:Q9TXU2;protein_id:CCD72188。 >
第 2 行:
C02B10.5;CE16802;WBGene00015330;状态:Partially_confirmed;UniProt:O44447;protein_id:CCD61167.1
第 3 行:
ZK1127.4;CE07643;WBGene00022851;状态:已确认;protein_id:CCD73716.1
第 4 行:
T27C4.4a;CE21211;WBGene00003025;基因座:lin-40;状态:已确认;UniProt:O61907;protein_id:CCD74255.1;>T27C4.4b;CE21212;WBGene00003025;基因座:lin-40;状态:已确认; UniProt:Q76NP4;protein_id:CCD74256.1;>T27C4.4d;CE33331;>F54F2.9;CE39158;WBGene00018836;状态:已确认;UniProt:P34454;protein_id:CCD71243.1
我希望输出是:
H2L0A8;Q9TXU2
O44447
O61907;Q76NP4;P34454
【问题讨论】:
-
考虑在未来提供例如
dput(d$Fasta.headers[1:4])的输出,以便人们更轻松地重新创建您的数据。 -
我正在发布一个非常有用的正则表达式学习平台的链接:leaverou.github.io/regexplained