「论文翻译」Tri-graph Information Propagation for Polypharmacy Side Effect Prediction

NeurlPS 2019（A类）

文章目录

Abstract
Introduction

Abstract

药物组合的使用通常会导致多药副作用（POSE）。最近的一种方法将POSE预测公式化为药物和蛋白质图上的链接预测问题，并使用图卷积网络（GCN）对其进行求解。但是，由于POSE中复杂的关系，该方法具有很高的计算成本和内存需求。本文提出了一种灵活的三图信息传播（TIP）模型，该模型在三个子图上运行，通过蛋白质-药物图从蛋白质-蛋白质图传播到药物-药物图，逐步学习表示形式。实验表明，TIP可以将精度提高7％+，时间效率提高83倍，空间效率提高3倍。

Introduction

在治疗复杂或同时发生的疾病时，患者通常必须同时服用一种以上的药物，称为多药。由于药物之间的相互作用，这通常会引起其他副作用，即多药副作用（POSE）。图卷积网络（GCN）是一种新兴的图表示学习方法。基于GCN的药物表示学习已显示出POSE预测中的改进性能。POSE预测可以看作是链接预测问题。
「论文翻译」Tri-graph Information Propagation for Polypharmacy Side Effect Prediction
Figure 1: 具有两种类型的节点的多模式生物医学图：药物（D）和蛋白质（P），以及三种类型的边：标有b（固定）的蛋白质-蛋白质（P-P）边，标有t（固定）的蛋白质和药物（P-D）边和标有副作用 $r \in R$ 的药物-药物（D-D）边。

如Figure 1所示，可以使用以下方法构造多模式图：

边的标签为副作用的药物相互作用（D-D）（例如，根据POSE临床记录）
边的标签为t的蛋白质-药物相互作用（P-D）
边的标签为b蛋白质相互作用（PP）（例如，根据药理学信息。）

在这样的图表上，Zitnik等人提出了一个基于GCN的Decagon模型，通过局部邻域信息的加权聚合来学习药物/蛋白质表示，并为不同的边标签分配了不同的权重。它可以预测所有节点之间的所有关系（药物/蛋白质）。这种方法可以预测具有强大分子起源的副作用。然而，由于大量节点和可能的边标签，聚合操作同时具有高计算成本和高存储需求。

「论文翻译」Tri-graph Information Propagation for Polypharmacy Side Effect Prediction

受Decagon模型的启发并受其局限性的启发，我们提出了三图信息传播（TIP）模型，以提高预测精度以及时间和空间效率，如Figure 2所示。我们从与in中相同的多模式生物医学图开始，该图由三个开放的BioSNAP-Decagon数据集构建而成，如Table 1所示。我们建议将其视为三个子图：P-P图，P-D图和D-D图，而不是从整体上看图，如图Figure 1和2所示。提示仅专注于预测D-D图中的关系（副作用），而不是Decagon中整个图中的所有关系。因此，我们对待药物节点和蛋白质节点的方式有所不同。
具体来说，提示有四个步骤：

学习蛋白质在P-P图上的嵌入
通过P-D图将此类嵌入传播到D-D图
学习最终的药物嵌入
预测D-D图上的副作用

TIP将蛋白质和药物嵌入可能具有不同尺寸的不同空间，而不是与Decagon中相同的空间和尺寸。这使得能够将柔性蛋白嵌入作为辅助信息传播到药物嵌入。
这带来了三个主要好处：

灵活性：我们设计了与前三个TIP步骤相对应的三个信息传播GCN模块，以及在P-D图（步骤2）中组合蛋白质和药物信息的两种方式。因此，我们可以灵活地设置GCN层的数量，以控制每个模块中考虑的邻域顺序。
效率：蛋白质和药物的单独嵌入可以大大提高基于GCN的表示学习和信息传播的时间（83倍）和空间（3倍）效率。
准确性：更加集中地学习药物表征可以更好地利用可用数据源，并可以改善POSE预测，例如，在我们的实验中提高了为7.2％。