【发布时间】:2014-11-17 08:38:39
【问题描述】:
我有包含 DNA 字符串的 fasta 文件。我想从正数据生成负数据集。一种方法是从我的数据中排除一些特定序列,然后对数据进行洗牌。
假设我的数据集是一个列表:
1)
DNAlst:
ACTATACGCTAATATCGATCTACGTACGATCG
CAGCAGCAGCGAGACTATCCTACCGCA
ATATCGATCGCAAAAATCG
我想排除这些序列:
ATAT,CGCA
所以结果是:
ACTATACGCTACGATCTACGTACGATCG
CAGCAGCAGCGAGACTATCCTAC
CGATAAAAATCG
2) 然后我想按特定长度(例如 5)随机播放我的序列。表示将长度为 5 的部分(5-mer)的 DNA 字符串打乱。例如:
ATATACGCGAAAAAATCTCTC => result after shuffle by 5 ==> AAAAACTCTCCGCAATATA
如果能告诉我如何在 R 中执行此操作,我将不胜感激。
【问题讨论】:
-
一个简单的
gsub可以做第一部分,比如gsub("ATAT|CGCA", "", "CAGCAGCAGCGAGACTATCCTACCGCA")虽然我不确定你是什么数据结构dput(DNAlst)可能有用
标签: r string replace dna-sequence