1.引言
iMAT方法是生物信息学中用于重构生物代谢网络比较经典的方法之一,其余还有INIT,tINIT,FASTCORE等方法,有机会将会一一介绍。 首先附上iMAT方法两篇文献,无论怎么说还是直接看论文更加清晰。
[1] Hadas Zur, Eytan Ruppin, Tomer Shlomi, iMAT: an integrative metabolic analysis tool, Bioinformatics, Volume 26, Issue 24, 15 December 2010, Pages 3140–3142, https://doi.org/10.1093/bioinformatics/btq602
[2] Network-based prediction of human tissue-specific metabolism
2.原理
iMAT算法可以根据蛋白质或基因表达数据,计算判断网络中的反应的真实状态(指高低表达)。它的根本思想是首先根据基因表达的强度,计算出每个基因的表达状态(这里可以有很多方法,阈值也是可以自己确定),包括1,0,-1,即高表达,正常表达和低表达,利用GPR(基因-蛋白质-反应关系图),先大致求出一个理想反应状态。之后基于人类代谢网络,利用MILP(混合整数线性规划)来求解符合要求的最优反应状态(和理想状态差距最小),具体原理如下:
其中目标函数代表使理想状态下高表达的反应,尽量在实际状态下高表达,低表达反应同理。(1)代表着流量反应平衡,这是非常常见的约束条件;(2)控制反应的上下限。对于每个反应,都有两个0-1变量y^+^以及y^-^代表反应是否**(活跃),对于R~H~中的反应,当反应流量明显大于阈值ε或者明显小于-ε时,我们认为它是**的(3)(4)。对于R~L~中的反应y代表其是否是不活跃的(5)。
最终通过求解我们可以知道特异性网络中哪些反应是高表达的,哪些是低表达的。
求解方法也比较巧妙,因为当我们直接对这个MILP求解的话,可能会存在一个解空间,在这个解空间中任意一个解都可能符合要求,这也导致了不确定性。所以算法通过两次MILP求解,即对每一个反应(强制活跃,强制不活跃)求解一次,看网络与理想数据的符合反应的数量x和y,通过比较x和y的大小来决定最终反应的状态。
在我自己的研究项目中,可以将高表达的反应利用FASTCORE重构网络,进行进一步的代谢分析(可以理解为简化网络,即删除一部分低表达的反应,且保证网络的一致性)。