An Error Correction and DeNovo Assembly Approach for Nanopore Reads Using Short Reads
一种使用短read的纳米孔读错误校正和从头装配方法
文摘:
背景:
误差校正是NGS数据分析和处理中的一项重要工作。错误纠正的目的是为了方便对大型项目进行数据分析,比如de novo assembly项目。在此,我们提出了一种新的混合算法用于长读和短读的纠错。我们的算法可以灵活地适应不同类型的错误。
接下来,我们做一个新的程序集来修正长读。目的:提出一种基于序列比对的MinIon读校正算法,利用Illumina短读算法检测和校正MinIon长读的错误。
方法:
在我们的方法中,我们分为四个步骤。
首先,我们进行质量控制和清洗数据。
其次,我们使用叠架形成的前误差校正步骤。
第三,我们使用对齐来对齐预组装的叠架到长读,我们使用这种对齐来纠正错误的长读。
最后,我们对纠正后的长读进行汇编。
结果:
S.cerevisaeW303(酿酒酵母)和E.coli(大肠杆菌)的映射结果
结果表明,该方法能在合理的时间内获得高质量的长读序列,其对参考基因组的映射率可达99%。
对于denovo程序集,与其他错误纠正工具相比,经过纠正的长读可以在较短的运行时间内提供良好的组装器。
结论:MiRCA是一种新的检测和纠正错误的混合方法。它使用一种基于校准的方法,使用预先组装的短读作为校正纳米孔长读的参考。
参比基因组校正长序列的实验评价。大肠杆菌表明,与现有的相关工作相比,MiRCA确保了最佳的错误纠正。