【发布时间】:2014-01-21 16:23:32
【问题描述】:
我有一个小的 fasta DNA 序列文件,如下所示:
>NM_000016 700 200 234
ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC
>NM_000775 700 124 236
CTAACCTCTCCCAGTGTGGAACCTCTATCTCATGAGAAAGCTGGGATGAG
>NM_003820 700 111 222
ATTTCCTCCTGCTGCCCGGGAGGTAACACCCTGGACCCCTGGAGTCTGCA
问题:
1) 我如何将这个 fasta 文件作为数据帧读入 R,其中每一行是一个序列记录,第一列是 refseqID,第二列是序列。
2)如何在(开始,结束)位置提取子序列?
NM_000016 1 3 #"ACA"
NM_000775 2 6 #"TAACC"
NM_003820 3 5 #"TTC"
【问题讨论】:
标签: r subset bioinformatics fasta