【发布时间】:2012-04-01 00:56:13
【问题描述】:
我有一个关于提取字符串的一部分的问题。例如我有一个这样的字符串:
a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"
我需要提取GN= 和; 之间的所有内容。所以这里将是NOC2L。
这可能吗?
注意:这是INFO 列形式VCF file format。 GN是基因名称,所以我们要从INFO列中提取基因名称。
【问题讨论】:
-
问题有点不清楚,因为您想要的字符串似乎并不总是后跟分号。
标签: r regex string bioinformatics vcf-variant-call-format