非靶向代谢组

特点

优点：广谱；缺点：1、定性主观影响因素较多；2、数据分析不当会导致有效信息被淹没。

中心思想

用检测到的代谢物来解释生物现象

分析流程

1、样本制备

2、数据采集

3、数据预处理及代谢物鉴定

4、统计分析

5、通路分析

6、未来方向

1、样品制备

甲醇：乙腈：水=2:2:1，液氮冷冻，冰水超声，4°干燥后-80°长期保存，上机前复溶（具体操作参照讲课PPT，或者他们课题组已发表文献）

优点：获得代谢物种类比较丰富

2、数据采集

仪器：Waters 5600+

MS/MS：一级定量（峰检测，peak 对齐，峰面积定量），二级定性（与库进行匹配）

3、数据预处理及代谢物鉴定

1）数据预处理软件

私密或公开	名称(仪器公司)	特点
公开	XCMS/XCMS Online	通用，灵敏度高，有编程基础更好
	MS-DIAL	友好，速度快，但更新较快，影响数据重复性(选定一个版本不要变)
	MZmine	通用，灵敏度高，有编程基础更好
	metflow(metflow.zhulab.cn)	朱正江推荐
私密	MassHunter/MPP(Aglient)	只适用于Aglient
	Compound Discoverer(Thermo)	只适用于Thermo
	QI(Waters)	可兼容Aglient和Thermo的数据

2）预处理流程

a. 峰检测；

b. 保留时间校正；

c. 对齐；

3）数据库鉴定

a. M/Z

b. Retention time(RT)

c. MS/MS spectra

最好的是M/Z结合MS/MS spectra鉴定，但是很多数据没有MS/MS spectra

数据库对比：

存在的问题：能够匹配到的代谢物很少，漏掉了很多有效的信息。

结构鉴定的新算法：metDNA（公共免费资源）

metDNA算法原理：利用生物化学反应中邻近代谢物具有相似的结构和二级质谱图（MS/MS）的原理

4、统计分析（by 小xue生https://www.cnblogs.com/jessepeng/p/12116920.html）

一般有如下几点：
1.数据预处理。如缺失值过滤填充、数据归一化等。
2.数据质控。包括CV分布、QC等。
3.统计分析。包括单变量、多变量等。
4.功能分析。包括Pathway、网络分析、Biomarker筛选等。

1.数据预处理

缺失值处理
1）缺失原因
a. 信号很低检测不到；
b. 检测错误，如离子抑制或者仪器性能不稳定；
c. 提峰的算法限制，不能从背景中将低的信号提取出来；
d. 解卷积时不能将重叠的峰全部解析出来。

2）缺失值过滤
比如：
QC样本中缺失超过50%的去除；
样本中缺失值超过80%的去除。

3）缺失值填充
-- 最小值填充
-- 平均值/中值填充
-- KNN（ k-nearest neighbour）填充
-- BPCA（Bayesian PCA）填充
-- PPCA（probabilistic PCA）填充
-- Singular Value Decomposition (SVD)
一般推荐KNN。

噪音信号去除
一般是低质量的离子。
1）低质量离子的确定：
计算某个离子在QC样本中的RSD（标准差/均值）；其值越小，说明偏差越小；

2）判断标准：
-- 对单个离子峰而言，RSD<0.3，则该离子峰合格，否则去除；
-- 对于整体数据而言，RSD<0.3，峰所占比例>60%，则整体数据合格；

样本归一化
目的是为了提高样本间的可比性。
样本间有差异性，如不同人的尿液浓度不同，不能直接拿来比较。

可在采集前归一化，如肌酸酐归一化；也可在采集后归一化，如sum，pqn，quantile等。对于数据分析而言，通常是后者，如总和归一化（sum）。

数据转换
下游的分析一般要求数据为正态分布或者高斯分布；
所以数据通常要进行Log转化或power转化，这两者都能够将极大值的抑制效应消除，并且能够调整数据的分布，如下图；

Log转化对0值比较敏感，必须首先去除零值。

数据转换——scaling
目的是消除极大值效应。
对不同样本中同一个m/z的强度差异过大进行调整，极大值的存在往往会掩盖较低值的变化特征。

可将某个m/z在所有样本中的强度的值，除以一个因子（SD值）；
方法如auto (uv)，pareto（推荐），vast， range等。

相当于上面样本归一化是为了样本可比，scaling是为了离子可比。

2.数据质控

QC样本的TIC重叠情况

上图分别是阴离子和阳离子模式下QC样本的TIC重叠情况。

一般认为：
所有的QC样本峰重叠良好；
峰强度波动差别不大；

QC样本中CV<30%的峰所占比例

PCA中QC样本的聚集程度

QC样本的相关性

上图分别为归一化前和归一化后的数据。

3.统计分析

单变量分析
一次只分析一个变量，即一个m/z，考察不同组别不同样本的这个m/z表达有无差异？
常见的方法有倍数分析，t检验，秩和检验，方差分析等。

聚类分析
核心思想就是根据具体的指标(变量)对所研究的样品进行分类；
聚类分析需要设定一个方法来衡量样本间的相似性或者不相似性（常用欧式距离，相关性系数等）；
常见聚类的方法：系统聚类（层次聚类）、K-均值聚类等。

K-均值首先要估计出将要分出几个类，然后将全部的基因按照相似性的距离，归入这几类中。
K– means计算量要小得多，效率比层次聚类要高。

无论哪种分类方法，最终要分成多少类，并不是完全由方法本身来决定，研究者应结合具体问题而定。
聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同。
使用聚类方法时，首先要明确分类的目的，再考虑选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。

多变量分析
1）PCA分析
以下分别是得分图（样本在新的坐标系中的位置
）和载荷图(loading图，原变量与主成分间的夹角)