【发布时间】:2020-12-30 18:53:03
【问题描述】:
我有一个包含 100 万行的 data.table,每个单元格如下所示:
ENST00000408384 // ENSEMBL // ncrna:miRNA 染色体:GRCh37:1:30366:30503:1 基因:ENSG00000221311 gene_biotype:miRNA transcript_biotype:miRNA // chr1 // 100 // 100 // 0 // --- / / 0 /// ENST00000469289 // ENSEMBL // 哈瓦那:已知染色体:GRCh38:1:30267:31109:1 基因:ENSG00000243485 基因_生物型:lincRNA 转录本_生物型:lincRNA // chr1 // 100 // 100 // 0 // -- - // 0 /// ENST00000473358 // ENSEMBL // 哈瓦那:已知染色体:GRCh38:1:29554:31097:1 基因:ENSG00000243485 gene_biotype:lincRNA transcript_biotype:lincRNA // chr1 // 100 // 100 // 0 // --- // 0 /// OTTHUMT00000002840 // 哈瓦那转录本 // 新转录本[gene_biotype:lincRNA transcript_biotype:lincRNA] // chr1 // 100 // 100 // 0 // --- // 0 /// OTTHUMT00000002841 // 哈瓦那转录本 // 新转录本[gene_biotype:lincRNA transcript_biotype:lincRNA] // chr1 // 100 // 100 // 0 // --- // 0
我需要提取紧跟在“gene_biotype:”之后的内容(在本例中是“miRNA”)。该怎么做?
我尝试使用 stringR 和 regex 找到解决方案,并在几个小时后放弃了。感谢你的帮助。 谢谢。
【问题讨论】:
-
还有gene_biotype:lincRNA。你不想也拿那个吗?
-
当然,这也是必要的。感谢您的评论。