OTU聚类 - 爱码网

http://blog.sciencenet.cn/home.php?mod=space&uid=313491&do=blog&id=1087962

http://www.360doc.com/content/17/1214/01/33459258_712880682.shtml

http://blog.sciencenet.cn/blog-3334560-1079985.html

http://www.360doc.com/content/19/0101/09/52645714_805775306.shtml

https://www.sohu.com/a/214577328_785442

http://www.biostack.org/?p=275

https://www.linkedin.com/pulse/%E5%BE%AE%E7%94%9F%E7%89%A9%E5%A4%9A%E6%A0%B7%E6%80%A7%E5%88%86%E6%9E%90otu%E8%81%9A%E7%B1%BB%E4%B8%8E%E6%B3%A8%E9%87%8A-jiarui-sun?articleId=6557075596340490240

OTU定义

OTU（Operational Taxonomic Units），即操作分类单元。通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性，继而设置特定的分类阈值，获得同一阈值下的距离矩阵，进行聚类操作，形成不同的分类单元。在16S测序中，将序列按照97%的相似性进行OTU聚类。

还不明白OTU为何物的童鞋，请点击这里阅读《》

OTU聚类的意义

高通量测序得到的序列有几千万条，对每条序列都进行物种注释的话，工作量大、耗时，而且扩增、测序等过程中出现的错误会降低结果的准确性。在扩增子测序分析过程中引入OTU，首先对相似性序列进行聚类，分成数量较少的分类单元，基于分类单元进行物种注释，不仅简化工作量，提高分析效率，而且OTU在聚类过程中会去除一些测序错误的序列，如嵌合体序列，提高分析的准确性。

而OTU聚类与序列直用主要的区别在于（Callahan et al. 2017）：

1）规避97%的相似度等阈值，可以提高检测的分辨率，尤其是那些遗传距离非常近（>97%）的物种，往往会因为被归入某个OTU而被雪藏；

2）OTU聚类有点类似一次性操作，不同研究之间的可比性比较不好，尤其是做荟萃分析时，可能需要把数据从头开始做，而直接用序列分析，就容易很多；

3）使用序列本身作为tag可能比OTU要稳定的一个原因是，序列本身具有一定的生物学意义，可以作为稳定的生物学标记，甚至不需要参考数据库，而OTU总归不能等同于species。

当然序列本身的使用也不是万能的，比如，使用marker gene分析时，不同的研究对象和研究环境，可能仍需要筛选相宜的marker及引物，不同数据之间的可比性依然是存在问题的。