【问题标题】:Trim Illumina reads in a bam/sam fileTrim Illumina 读取 bam/sam 文件
【发布时间】:2020-04-26 16:16:56
【问题描述】:

我找到了很多用于以 fastq 格式修剪读取的工具,但有没有可用于修剪已经对齐的读取的工具?

【问题讨论】:

  • 1: biostars.org 2: 修剪是什么意思?我一直在处理 fasta 和 fastq 文件,我不知道你在问什么。
  • 修剪意味着根据特定标准从序列末端去除碱基。它可以只是两端的一组数字,也可以基于 fastq 的质量。 Trimmomatic 和 FastX 工具包可以为 fastq 执行此操作,但我正在寻找在 bam 文件中执行此操作的内容。

标签: bioinformatics fastq


【解决方案1】:

我个人不鼓励在对齐读取后修剪读取,尤其是当您尝试修剪的序列是接头序列时。

这些接头序列的存在会阻止您的读数与基因组正确对齐(根据我的经验,您应该得到的对齐百分比要低得多)。由于您的对齐方式已经不准确,因此在对齐后修剪序列(垃圾输入,垃圾输出)将毫无意义。

在对齐它们之前修剪 fastq 文件会更好。

【讨论】:

  • 感谢您的建议。我最终这样做了。
  • 如果读数已经与参考基因组对齐,我不明白为什么修剪会成为问题,特别是如果有理由相信由于处理导致 DNA(或 RNA)受损.你能详细说明一下吗?
【解决方案2】:

您是希望对齐通知修剪协议,还是要修剪质量值等内容?一种方法是简单地转换回 FASTQ,然后使用无数可用的传统修剪选项中的任何一种。你可以用 Picard 做到这一点:

http://picard.sourceforge.net/command-line-overview.shtml#SamToFastq

【讨论】:

  • 我希望对齐通知修剪协议。我想要执行此操作的读取是 RNAseq 读取,因此必须考虑拆分读取。我可以写一些东西来简单地修剪读取和质量分数,但是在考虑 CIGAR 字符串的同时更新对齐似乎有点棘手。
【解决方案3】:

一种可能性是使用 GATK 工具集,例如 ClipReads。如果要移除适配器,可以使用 ReadAdaptorTrimmer。无需转换为 fastq(文档:http://www.broadinstitute.org/gatk/gatkdocs/)。

当然,Picard 是另一种可能性。

【讨论】:

    【解决方案4】:

    在完成大量比对工作后,当您希望将读取标准化为相同长度时,会遇到修剪 bam 文件中的读取的情况。修剪 fastq 读取后重新映射不是节能的。在站点读取中,从 bam 文件中修剪将是首选解决方案。

    请尝试bbmap/reformat.sh,它可以使用接受bam格式的输入文件修剪读取。

    reformat.sh in=test.bam out=test_trim.bam  allowidenticalnames=t overwrite=true forcetrimright=74 sam=1.4
    ## the default output format of reformat is sam 1.4. however, many tools only recognize 1.3 version. So the following step is to convert the 1.4 to version 1.3.
    reformat.sh in=test_trim.bam out=test_trim_1.3.bam allowidenticalnames=t overwrite=true sam=1.3
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-06-10
      • 2015-05-29
      • 1970-01-01
      • 1970-01-01
      • 2021-08-23
      • 1970-01-01
      相关资源
      最近更新 更多