Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

用于生成目标导向分子图的图卷积策略网络

Abstract
1 Introduction

1.1 Present Work.
1.2 Graph representation
1.3 Reinforcement learning
1.4 Adversarial training

2 Related Work
3 Proposed Method

3.1 Problem Definition
3.2 Graph Generation as Markov Decision Process
3.3 Molecule Generation Environment
3.4 Graph Convolutional Policy Network
3.5 Policy Gradient Training

4 Experiments

4.1 Experimental Setup
4.2 Molecule Generation Results

5 Conclusion

Jiaxuan You

2019年

Abstract

生成新颖的图结构以优化给定的目标，同时遵循一些给定的基本规则，这对于化学，生物学和社会科学研究而言是至关重要的。
分子图生成任务的目的: 是发现具有所需特性（如药物样和合成可及性）的新分子，同时遵守物理定律（如化学价）。然而，设计模型以找到优化所需特性同时结合高度复杂和不可微的规则的分子仍然是一项艰巨的任务。

我们提出Graph Convolutional Policy Network (GCPN),这是一个基于图卷积网络的通用模型，(1)基于通用图卷积网络的模型，用于通过强化学习生成目标导向图。(2)该模型经过训练可以通过策略梯度优化特定领域的奖励和对抗损失，并在包含特定领域规则的环境中运行。实验结果表明，与已知分子类似，GCPN可以在最先进的基线上实现61％的化学性质优化，而在约束性质优化任务上则可以提高184％。

1 Introduction

药物发现和材料科学基于特定的分子结构。药物发现和材料科学中的许多重要问题均基于设计具有特定所需特性的分子结构的原理。但是，由于化学空间很大，这仍然是一项艰巨的任务。例如，药物样分子的范围估计在1023和1060之间[32]。另外，化学空间是离散的，分子特性对分子结构的微小变化高度敏感[21]。

最近，在将深度学习模型应用于分子生成方面取得了重大进展[15、38、7、9、22、4、31、27、34、42]。然而，能够直接优化各种所需的物理，化学和生物学特性指标的新颖有效的分子图的产生仍然是一项艰巨的任务。

1.1 Present Work.

在这项工作中，我们提出了图卷积策略网络（GCPN），这是一种生成分子的方法，在该方法中，可以将生成过程导向特定的所需目标，同时根据基本的化学规则限制输出空间。为了解决目标导向分子生成的挑战，我们利用并扩展了三个概念，并将它们组合在一个统一的框架中。：

图形表示：图表示学习用于获取生成图状态的矢量表示
强化学习
对抗训练：对抗损失用作奖励，以结合示例分子数据集指定的先验知识

整个模型在增强学习框架中进行端到端训练。

1.2 Graph representation

我们将分子直接表示为分子图，比SMILES (simplified molecular-input line-entry system)[40]更健壮，这是一种基于文本的表示法，在以前的工作中被广泛使用[9，22，4 ，15，38，27，34]。

1.3 Reinforcement learning

与通过数据集学习生成模型相比，用于目标导向分子生成的强化学习方法具有多个优势。

(1) 所需的分子性质（如药物相似性[1，29]）和分子限制（如化合价）是复杂且不可微的，因此无法将它们直接纳入图生成模型的目标函数中。相反，强化学习能够通过环境动力学和奖励功能的设计直接表示硬约束和所需的属性。

(2) 强化学习允许主动探索数据集中样本之外的分子空间。深度生成模型的替代方法[9，22，4，16]在重建给定分子方面显示出可喜的成果，但其探索能力受到训练数据集的限制。

1.4 Adversarial training

结合示例分子数据集指定的先验知识对于分子生成至关重要。对抗训练通过使用生成器进行对抗训练的可学习区分器来解决挑战[10]。训练收敛后，鉴别器隐式合并给定数据集的信息并指导生成器的训练。

GCPN被设计为在化学感知图生成环境中运行的强化学习代理（RL代理）。通过将新的子结构或原子与现有的分子图相连接或添加键以连接现有的原子来依次构造分子。 GCPN可以预测添加键的作用，并通过策略梯度进行训练以优化由分子特性目标和对抗性损失组成的奖励。对抗损失由基于图卷积网络[20，5]的鉴别器提供，该鉴别器在示例分子的数据集上共同训练。总体而言，这种方法可以直接优化特定于应用程序的目标，同时确保生成的分子是现实的并满足化学规则。

我们在与药物发现和材料科学相关的三个不同的分子生成任务中评估GCPN：molecule property optimization, property targeting and conditional property
optimization。我们使用ZINC数据集[14]为GCPN提供示例分子，并训练策略网络以生成具有高属性得分的分子，具有目标属性得分的预先指定范围的分子或包含特定子结构但具有高性能的分子得分。在所有任务中，GCPN都能达到最先进的结果。 GCPN生成的分子的性能得分比最佳基准方法高61％，并且在约束优化设置中的平均性能优于基准模型平均184％。

2 Related Work

Yang et al. [42] and Olivecrona et al. [31]提出以分子特性为目标的RNN SMILES，分别使用蒙特卡罗树搜索和策略梯度对其进行了优化。

Guimaraes et al. [27] and Sanchez-Lengeling et al. [34] 进一步包括增强学习奖励的对抗损失，以增强与给定分子数据集的相似性。

Jin et al. [16] 提出使用变分自编码器（VAE）框架，其中分子表示为小原子簇的连接树。该方法只能在解码为分子之前间接优化学习的潜在嵌入空间中的分子特性，而我们的方法可以直接优化分子图的分子特性。

You et al. [43] ]使用自回归模型来最大化图生成过程的可能性，但是不能用于生成属性图。

Li et al. [25] and Li et al.[26] 所述的顺序图生成模型，其中可以并入条件标记以生成其分子特性接近指定目标分数的分子。但是，这些方法也不能直接对所需的分子特性进行优化。

3 Proposed Method

3.1 Problem Definition

我们将图 $G$ 表示为 $(A,E,F)$ ，其中

$A\in \{ 0,1\}^{n\times n)}$ 是邻接矩阵
$F \in \mathbb{R}^{n \times d}$ 是顶点特征矩阵，每个顶点有 $d$ 维特征
定义 $E\in \{0,1\}^{b\times n\times n}$ 为离散边条件相邻向量，假设有 $b$ 种类型边。
如果顶点 $j$ 和 $k$ 之间有 $i$ 种类型的边，则 $E_{i,j,k}=1$ ,且 $A=\sum^b_{i=1} E_i$

我们的主要目标是生成最大化给定特性函数 $S(G)\in \mathbb{R}$ 的图,例如最大化 $E_{G'}[S(G')]$ ,其中 $G'$ 是产生的图， $S$ 可以是一个或多个感兴趣的特定于域的统计信息。
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

3.2 Graph Generation as Markov Decision Process

3.3 Molecule Generation Environment

(1) State Space

(2) Action Space

(3) State Transition Dynamics
特定于域的规则已纳入状态转换动态中。环境执行符合给定规则的动作。策略网络提出的不可行操作被拒绝，状态保持不变。对于分子生成的任务，环境结合了化学规则。在图1（d）中，两个动作均通过了化合价检查，并且环境根据这些动作更新了（部分）分子。请注意，与基于文本的表示方式不同，基于图的分子表示法使我们能够执行此逐步的化合价检查，因为即使对于不完整的分子图也可以执行此步骤。

(4) Reward design
中间奖励和最终奖励均用于指导RL代理的行为。我们将最终奖励定义为特定领域奖励和对抗性奖励的总和。特定领域的奖励包括最终属性得分（的组合），例如辛醇-水分配系数（logP），药物相似性（QED）[1]和分子量（MW）。特定领域的奖励还包括根据各种标准对不切实际的分子进行惩罚，例如过度的空间应变和违反ZINC官能团过滤器的官能团的存在[14]。中间奖励包括逐步有效性奖励和对抗性奖励。如果操作不违反效价规则，则分配少量的正面奖励，否则分配较小的负面奖励。例如，图1的第二行显示了采取终止操作的情况。当环境根据终止动作进行更新时，将给出逐步奖励和最终奖励，并且生成过程将终止。

为了确保生成的分子类似于给定的分子集，我们采用了生成对抗网络（GAN）框架[10]来定义对抗性奖励 $V\left(\pi_{\theta}, D_{\phi}\right)$
$\min _{\theta} \max _{\phi} V\left(\pi_{\theta}, D_{\phi}\right)=\mathbb{E}_{x \sim p_{d a t a}}\left[\log D_{\phi}(x)\right]+\mathbb{E}_{x \sim \pi_{\theta}}\left[\log D_{\phi}(1-x)\right]$

其中 $\pi_{\theta}$ 是策略网络， $D_{\phi}$ 是鉴别器网络， $x$ 表示输入图， $p_{data}$ 是在最终图（用于最终奖励）或中间图（用于中间奖励）上定义的基础数据分布。但是，只能使用随机梯度下降来训练 $D_{\phi}$ ，因为 $x$ 是相对于参数 $\phi$ 不可微的图形对象。取而代之的是，我们将 $V\left(\pi_{\theta}, D_{\phi}\right)$ 与其他奖励一起用作附加奖励，并使用策略梯度方法[44]优化总奖励（第3.5节）。鉴别器网络采用策略网络的相同结构（第3.4节）来计算节点嵌入，然后将其嵌入到图嵌入中并转换为标量预测。

3.4 Graph Convolutional Policy Network

在说明了图生成环境之后，我们概述了GCPN的体系结构，GCPN是RL代理学习以在环境中起作用的策略网络。 GCPN将中间图 $G_t$ 和脚手架子图 $C$ 的集合作为输入，并输出操作，该操作预测要添加的新链接，如第3.3节所述。

(1) Computing node embeddings

为了在 $G_{t} \cup C$ 中执行链接预测，我们的模型首先使用图形卷积网络（GCN）[20、5、18、36、8]计算输入图的节点嵌入，这是一种经过充分研究的技术，可实现分子表示学习的最先进性能。我们使用以下变体支持分类边缘类型的合并。高层的想法是对每种边缘类型执行总共L层的消息传递。在GCN的第l层，我们汇总来自不同边类型的所有消息，以计算嵌入 $H^{(l+1)} \in \mathbb{R}^{(n+c) \times k}$ 的下一层节点，其中 $n，c$ 是 $G_t$ 的大小，分别为 $C$ 和 $k$ 为嵌入尺寸。更具体地说，
$H^{(l+1)}=\operatorname{AGG}\left(\operatorname{ReLU}\left(\left\{\tilde{D}_{i}^{-\frac{1}{2}} \tilde{E}_{i} \tilde{D}_{i}^{-\frac{1}{2}} H^{(l)} W_{i}^{(l)}\right\}, \forall i \in(1, \ldots, b)\right)\right)$
其中 $E_i$ 是边条件邻接张量 $E$ 的第 $i$ 个切片. $\tilde{E}_{i}=E_{i}+I ; \tilde{D}_{i}=\sum_{k} \tilde{E}_{i j k}$ , $W_{i}^{(l)}$ 是第 $i$ 个边类型的可训练权重矩阵， $H^{(l)}$ 是在第 $l$ 层学习的节点表示。我们使用 $AGG（·）$ 表示一个聚合函数，它可能是{平均，最大，总和，CONCAT} [12]。 GCN层的这种变体允许并行实现，同时在表达不同边缘类型之间的信息时保持表现力。我们应用 $L$ 层GCN扩展图 $G_{t} \cup C$ ，以计算最终节点嵌入矩阵 $X=H^{(L)}$ 。

(2) Action prediction
在时间步骤t，基于链接预测的操作 $a_t$ 是四个部分的串联：两个节点的选择，边缘类型的预测和终止的预测。具体而言，根据公式3和4所控制的预测分布对每个分量进行采样。

$a_{t}=\operatorname{CONCAT}\left(a_{\text {first }}, a_{\text {second }}, a_{\text {edge }}, a_{\text {stop }}\right)$

$\begin{array}{ll}{f_{\text {first }}\left(s_{t}\right)=\operatorname{softMAX}\left(m_{f}(X)\right),} & {a_{\text {first }} \sim f_{\text {first }}\left(s_{t}\right) \in\{0,1\}^{n}} \\ {f_{\text {second }}\left(s_{t}\right)=\operatorname{softMAX}\left(m_{s}\left(X_{\left.a_{\text {first }}, X\right)}\right),\right.} & {a_{\text {second }} \sim f_{\text {second }}\left(s_{t}\right) \in\{0,1\}^{n+c}} \\ {f_{\text {edge }}\left(s_{t}\right)=\operatorname{SoftMAX}\left(m_{e}\left(X_{a_{\text {first }}, X_{a_{\text {second }}}}\right)\right),} & {a_{\text {edge }} \sim f_{\text {edge }}\left(s_{t}\right) \in\{0,1\}^{b}} \\ {f_{\text {stop }}\left(s_{t}\right)=\operatorname{SOFTMAX}\left(m_{t}(\operatorname{AGG}(X))\right),} & {a_{\text {stop }} \sim f_{\text {stop }}\left(s_{t}\right) \in\{0,1\}}\end{array}$

我们用 $m_f$ 表示将 $Z_{0: n} \in \mathbb{R}^{n \times k}$ 映射到 $\mathbb{R}^{n}$ 向量的多层感知器（MLP），该向量表示选择每个节点的概率分布。通过将第二个节点的嵌入与 $G_{t} \cup C$ 中每个节点的嵌入 $Z_{a_{\text {first }}}$ 串联在一起，将来自第一个选定节点 $a_{\text {first }}$ 的信息并入第二个节点的选择中.然后，第二个MLP $m_{s}$ 将级联的嵌入映射到要被选作第二个节点的每个潜在节点的概率分布。请注意，在选择两个节点来预测链接时，要选择的第一个节点 $\alpha_{first}$ 应该始终属于当前生成的图形Gt，而要选择的第二个节点 $\alpha_{second}$ 可以来自 $G_t$ （形成一个循环），也可以来自 $C$ （添加新的子结构）。为了预测链接， $m_e$ 将 $Z_{afirst}$ 和 $Z_{asecond}$ 作为输入，并使用MLP映射到分类边缘类型。最后，通过首先使用聚合函数AGG将节点嵌入聚合到图嵌入中，然后使用MLP $m_t$ 将图嵌入映射到标量来计算终止概率。

3.5 Policy Gradient Training

基于策略梯度的方法被广泛用于优化策略网络。在这里，我们采用最新的策略优化（PPO）[35]，这是最新的策略梯度方法之一。 PPO的目标函数定义如下
$\max L^{\mathrm{CLIP}}(\theta)=\mathbb{E}_{t}\left[\min \left(r_{t}(\theta) \hat{A}_{t}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{t}\right)\right], r_{t}(\theta)=\frac{\pi_{\theta}\left(a_{t} | s_{t}\right)}{\pi_{\theta_{\text {old}}}\left(a_{t} | s_{t}\right)}$

其中 $r_{t}(\theta)$ 是裁剪到 $[1-\epsilon, 1+\epsilon]$ 范围的概率比，使 $L^{\mathrm{CLIP}}(\theta)$ 成为保守策略迭代目标[17]的下限， $\hat{A}_{t}$ 是估计优势函数包括学习值函数 $V_{\omega}(\cdot)$ ，以减少估计的方差。在GCPN中， $V_{\omega}(\cdot)$ 是一个MLP，它映射根据3.4节计算的图嵌入。

4 Experiments

4.1 Experimental Setup

数据集。对于分子生成实验，我们利用ZINC250k分子数据集[14]，其中包含250,000种药物，例如市售的最大原子数为38的分子。我们将数据集用于专家预训练和对抗训练。

分子环境。我们使用RDKit [23]将分子环境设置为OpenAI Gym环境[3]，并将其适应于ZINC250k数据集。具体地，最大原子数设置为38。存在9个原子类型和3个边类型，因为分子以可屈化形式表示。对于特定的奖励设计，我们根据化学角度以及生成结果的质量，根据奖励在分子生成中的重要性对每个奖励组件进行线性缩放。对从分子生成轨迹收集的所有奖励进行汇总时，该模型可获得的奖励值的范围为[4，4]用于最终化学性质奖励，[2，2]用于最终化学过滤器奖励，[1， 1]用于最终对抗性奖励，[1，1]用于中等对抗性奖励和[1，1]用于中等有效性奖励。
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation
GCPN设置。我们使用3层定义的GCPN作为策略网络，在所有隐藏层中都嵌入了64维节点，并且在每层之后都应用了批量标准化[13]。另一个具有相同架构的3层GCN用于识别器训练。进一步添加GCN层时，我们发现没有什么改善。我们观察到不同聚合函数之间的可比性能，并为所有实验选择SUM（·）。我们发现专家预训练和RL目标对于生成高质量分子都很重要，因此在整个训练过程中都将其保留下来。具体来说，我们使用PPO算法训练带有默认超参数的RL目标，因为我们没有看到通过调整这些超参数而获得太多性能提升，并且学习率设置为0.001。专家预训练目标的学习速率为0.00025，我们确实观察到添加此目标有助于更快地收敛和提高性能。这两个目标均使用批次大小为32的Adam优化器[19]进行训练。

基线。我们将我们的方法与以下最新的基线进行比较。结点树VAE（JT-VAE）[16]是结合了图形表示和VAE框架的最新算法
用于生成分子图，并在学习到的潜在空间上使用贝叶斯优化来搜索具有优化特性得分的分子。事实证明，JT-VAE优于以前的分子生成深层生成模型，包括Character-VAE [9]，Grammar-VAE [22]，SD-VAE [4]和GraphVAE [39]。我们还将我们的方法与ORGAN [27]（使用基于文本的分子表示法基于RL的最新分子生成算法）进行比较。为了证明基于学习的方法的好处，我们使用随机爬山算法进一步实现了一个基于规则的简单模型。我们从一个包含单个原子（与GCPN相同的设置）的图形开始，遍历给定当前状态的所有有效动作，随机选择下一个具有最高5个最高属性得分的状态，只要对当前状态有所改善，然后循环直到达到最大节点数。为了公平地比较不同方法，我们为所有方法设置了相同的目标函数，并使用32个CPU内核在相同的计算设备上运行了所有实验。我们使用其发布的代码来运行两个深度学习基准，并允许该基准具有大约24小时的挂钟运行时间，而我们的模型可以在大约8小时内获得结果。

4.2 Molecule Generation Results

属性优化。在这项任务中，我们着重于生成具有最高惩罚logP [22]和QED [1]分数的分子。惩罚式logP是一个logP分数，它也说明了环的大小和合成可及性[6]，而QED则是药物相似性的指标。请注意，这两个分数都是从经验预测模型计算而来的，该模型的参数是从相关数据集中估算的[41，1]，并且这些分数已在以前的分子世代论文中广泛使用[9，22，4，39，27]。惩罚性logP的范围是无限的，而QED的定义范围是[0，1]，因此直接比较QED的改进百分比可能没有意义。我们在以前的方法[22、4、16]中采用了相同的评估方法，报告了每个模型发现的最佳3个性能得分以及满足化学有效性的分子分数。表1总结了每种模型发现的分子的最佳性能得分，并且还显示了ZINC250k的统计信息。
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation 为了比较。在优化惩罚式logP时，我们的方法始终比以前的方法表现更好，与JT-VAE相比平均提高了61％，与ORGAN相比平均提高了186％。我们的方法也优于QED优化任务中的所有基线，并且显着优于随机爬山基线。

与ORGAN相比，由于分子图表示可以逐步进行化学价检查，因此我们的模型可以实现完美的有效性比。与JT-VAE相比，我们的模型可以达到更高的分数，这是因为RL可以直接优化给定的属性得分，并且可以轻松地推断出给定的数据集之外。图2（a）和（b）分别显示了具有优化的logP和QED分数的生成分子的可视化。

尽管大多数生成的分子是现实的，但在某些非常罕见的情况下，尤其是在我们减少对抗性奖励和专家预训练成分的情况下，我们的方法可以生成不理想的分子，其具有由经验模型预测的惊人的高logP的惩罚，例如在图2（a）的右下角，其中我们的方法正确地确定了在用于计算logP的经验模型中，碘具有最高的每原子贡献率。这些不希望有的分子可能具有不准确的预测特性，并说明了在不结合现有知识的情况下优化由经验模型（如惩罚logP和QED）计算出的特性的问题。对于与用于训练模型的分子集有显着差异的分子，预测分子特性的经验预测模型的推广效果很差。在对生成的分子没有任何限制的情况下，优化算法将利用在分子空间的某些区域中缺乏经验特性预测模型的一般性。我们的模型通过对抗性训练和专家预训练结合已知的现实分子的先验知识来解决此问题，这会产生更现实的分子，但经验预测模型计算出的特性得分较低。请注意，爬坡基线算法大多会产生不希望的情况，因为经验预测模型的准确性值得怀疑，因此表1并未列出其优化惩罚式logP的性能。

定位属性。在此任务中，我们指定分子量（MW）和logP的目标范围，并报告具有该范围内性能得分的分子的百分比，以及分子的多样性。一组分子的多样性定义为分子的Morgan指纹[33]之间的平均成对Tanimoto距离。这项任务的RL奖励是所生成分子的属性得分与射程中心之间的L1距离。为了增加难度，我们设置目标范围，以使ZINC250k数据集中的分子很少在该范围内，以测试针对给定目标进行优化的方法的外推能力。目标范围包括e2.5≤logP≤−2、5≤logP≤5.5、150≤MW≤200和500≤MW≤550。

如表2所示，与基线方法相比，GCPN在生成具有目标范围内特性的分子方面具有显着更高的成功率。此外，GCPN能够生成具有高度多样性的分子，这表明它能够学习一般的随机策略来生成满足特性要求的分子图。
Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation
约束属性优化。在本实验中，我们在JT-VAE中进行了评估之后，优化了惩罚logP，同时将生成的分子限制为800个具有低惩罚logP的ZINC分子之一。由于JT-VAE无法约束生成的分子具有特定结构，因此我们采用其评估方法，其中放宽了约束，以使原始分子和修饰分子之间的分子相似度sim（G，G0）高于阈值δ。我们在初始状态被随机设置为800个ZINC分子之一的环境中训练固定的GCPN，然后执行与属性优化任务相同的训练过程。在表3中报告了800多个分子中，最高性能得分改善的均值和标准差以及原始分子和修饰分子之间的对应相似性。
我们的模型显着优于JT-VAE，平均enalized logP改善了184％，并且始终成功地发现了logP分数更高的分子。还要注意，JT-VAE为每个给定的分子约束条件执行优化步骤。相比之下，GCPN可以很好地推广：它学习了提高性能得分的一般策略，并将相同的策略应用于所有800个分子。图2（c）显示GCPN可以修饰ZINC分子以获得高的logP得分，同时仍包含原始分子的亚结构。

5 Conclusion

我们介绍了GCPN，它是一种使用图状态表示和对抗训练的图生成策略网络，并将其应用于目标导向的分子图生成任务。 GCPN在分子特性的优化和靶向方面始终胜过其他最新方法，同时保持了100％的有效性和与实际分子的相似性。此外，GCPN的应用可以远远超出分子的产生。该算法可用于在许多情况下（例如电路，社交网络）生成图，并探索可优化某些特定领域特性的图。