【发布时间】:2016-02-11 02:24:23
【问题描述】:
我在 PCR 之前使用条形码标记线粒体 DNA 链。条码序列是未知的,但它们有 18 个核苷酸长,并直接进行已知序列(CATCAT 或 TACTAC)。每个 DNA 分子都会获得一个唯一的条形码标识符。分子进行 PCR 后,我需要根据其 18 个核苷酸的条形码对序列进行聚类,然后根据条形码对齐序列。
举一个过于简单的例子,假设我有 2 个分子正在进行 PCR 反应:
CATCATBARCODE1SEQUENCE1
TACTACBARCODE2SEQUENCE2
放大后我有:
CATCATBARCODE1SEQUENCE1
CATCATBARCODE1SEQUENCE1
TACTACBARCODE2SEQUENCE2
TACTACBARCODE2SEQUENCE2
然后我想搜索位置 6-13 的序列部分,并根据该序列窗口对它们进行聚类,而不更改序列的其余部分,这实际上就像我上面的内容。然后我可以对相邻的序列进行比对。
关于如何在不考虑序列的其余部分的情况下完成序列窗口的这种聚类的任何想法?谢谢。
【问题讨论】:
-
使用
dplyr你可以做类似df %>% mutate(sub_seq = substr(dna_seq, start, end)) %>% group_by(sub_seq) %>% ...的事情 -
嗨史蒂夫,我刚开始研究 dplyr。这似乎是一个不错的选择。我会尝试你的建议。如果需要,我什至可以将数据格式化为制表符分隔的列,分隔 CATCAT|TACTAC、条形码和序列,然后使用 dplyr 中的一些函数来组织它们。我会继续调查这个...谢谢你的提示。
-
如果你能给出更多关于输入和预期输出的细节,我可以给你一个更具体的例子。
-
谢谢史蒂夫。我有一个包含 fast5 文件的文件夹,可以将其转换为 fasta,然后修剪序列,使其两侧有已知的 CATCAT|TACTAC。然后我将所有序列发送到一个 txt 文件。由新行分隔。我不确定输出格式应该是什么,因为我还没有找到聚类/对齐方法,但我想我可以处理一个大的序列文本文件......
-
您是否从
dplyr的建议中获得了您所需要的东西,还是需要更具体的东西?
标签: r perl cluster-analysis bioinformatics