第三代PacBio测序技术的测序原理和读长
| 针对PacBio单分子测序——第三代测序技术的测序原理和读长 |
|
DNA基因测序技术从上世纪70年代起,历经三代技术后,目前已发展成为一项相对成熟的生物产业。测序技术的应用也扩展到了生物、医学、制药、健康、农林、园艺、花卉、环保、法医等许多领域,并成为一项与我们衣食住行密切相关的高技术产业。据最新统计,2012年全球基因测序市场的产值已超过百亿,按最近几年增长速度,预计2017年市场产值将加倍。因此可以说,基因测序在我国生物科技领域具有非常重要的战略意义。 一,中科院药植所采用PacBio单分子测序揭示丹参叶绿体DNA修饰之间复杂的相互作用:编码及非编码RNA的表达 2014年6月10日,中科院药用植物研究所(IMPLAD)刘昶团队在《PLOS ONE》杂志上发表了利用PacBio测序技术揭示丹参(Salvia miltiorrhiza)叶绿体DNA修饰之间复杂相互作用的相关文章,该文章报道了丹参叶绿体中编码及非编码RNA的表达情况。这也是国内PacBio第三代测序用户在国际性杂志发表的第一篇文章。 首先,大多数asRNA转录本表达水平显著偏低,因而难以用经典技术如Northern Blot和原位杂交进行验证。 第二,正义和反义转录本之间错综复杂的关系意味着实验扰动会不可避免地干扰其他转录本的表达。因此,通过knocking-in和knocking-out技术确定转录本的生物学功能是复杂的。第三,虽然SMRT技术已被证明能够检测到潜在的DNA修饰,但验证这些修饰仍然是个挑战性的任务。 第四,叶绿体asRNA和DNA修饰的存在和功能的验证是更加困难的。 二,三代基因测序组装算法和软件研发获突破 “第三代测序技术”的研发已有近十年时间,商业化的第三代测序仪上市也有三年。但目前测序市场仍为二代测序技术所垄断(我国顶级科研机构和商业公司所拥有的三代测序仪可能仅有数十台)。三代测序技术产生的读段更长,测序成本更低,其取代二代技术是测序技术发展的必然趋势。然而由于三代测序技术错误率高,现有的组装软件多是对第二代测序数据组装软件的“修补”而并没有充分考虑到三代测序技术的数据特征。事实上,基因组装算法问题被广泛认为是计算生物学和生物信息学领域最复杂的计算难题之一,也是目前阻碍基因测序产业从二代技术升级到三代技术最大的技术障碍。 理论上,DBG2OLC 在时间和空间的使用上相对其它同类软件可减少达1000倍。例如组装关键步骤之一的“两两比对”计算,采用一组由 PacBio提供的人类基因组数据,DBG2OLC 使用一台普通PC仅用了6小时完成。而同样计算,Pacific Biosciences所报道的时间为 405000 CPU小时,而且是在Google的计算集群上完成。因此,DBG2OLC 算法基本解决了目前三代测序技术所面临的计算技术挑战,从而为推进基因测序技术的产业升级奠定了良好的技术基础。 三,PacBio RS II 测序系统原理 PacBio RS测序仪系统能够对单个DNA(脱氧核糖核酸)分子进行测序,而目前市场上 PacBio RS II 测序系统特点 2、准确率高:对基因组组装和基因组变异检测,可以最多达到99.999%的准确率;选用特殊测序模式,测序准确率可以在达到单个分子99%准确率的条件下,读长超过经典的Sanger测序法; 3、极度的敏感性:可以检测频率在0.1%的 minor variants; 4、直接检测广泛的碱基修饰:除了5-methylcytosine修饰以外, 还可以检测N6-methyladenine, N4-methylcytosine, DNA氧化损伤 以及其它碱基的修饰. 5、GC偏向性(GC bias)小:在极端高GC和极端低GC区域,可以轻松测定,从而保证序列的均匀覆盖度; 6、无PCR扩增偏向性:样本不需要进行PCR扩增,避免了覆盖度不均一和PCR artifacts. |