Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

本文参考的原始论文地址https://arxiv.org/abs/1703.06490v1

摘要

获取电子健康记录(EHR)数据推动了医学研究的计算进步。然而，各种对隐私的关注，会限制我们的访问和协作。共享综合EHR数据可以减少风险。该文提出了一种新的方法-医学生成对抗网络(MedGAN)，来生成真实的综合EHRs。基于作为输入EHR数据集，medGAN可以通过自动编码器和生成对抗性网络的组合生成高维离散变量(例如二进制和计数特征)。同时通过小批次平均可以有效地避免模式崩溃，并通过批量归一化和快捷连接来提高学习效率。为了证明可行性，该文展示了medGAN基因。在包括分布统计、预测建模任务和医学专家评审在内的许多实验中，对实现与实际数据相当性能的合成EHR数据集进行评级。

主要贡献

（1）提出了一种高效的生成高维多热离散样本的算法-medGAN。特别是，medGAN可以同时处理二进制变量和计数变量。

（2）medGAN将输入的EHR数据转换成一个程序，该程序可以生成任意大容量的高质量、高维合成患者数据。

（3）提出了一种简单而有效的小批量平均方法来处理GAN学习生成低分集样本的情况，即“模式崩溃”问题，并且相比以前的小型批处理识别，该方法效果更好

（4）在分布统计、分类性能和医学专家评审等不同任务上使用真实的EHR数据集来演示medGAN的接近真实数据的性能。

medGAN框架

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

离散x来自源EHR数据，z是genrator G的随机先验；G是具有快捷连接的前馈网络(右侧图)；ncoder(即编码器Enc和解码器Dec)是从x中学习的，在生成器G之后使用相同的解码器Dec来构造离散输出。判别符D试图区分PUTX和离散合成输出DEC(G(z))

初步：生成对抗网络

在GaN中，发生器G(z；θg)接受随机先验z∈Rr并生成合成样本G(Z)∈Rd，而判别器D(x；θd)决定给定样本是真还是假。大最优鉴别器D∗可以很好地区分真实样本和假样本。最优生成器G∗将生成与实际样本无法区分的假样本，因此D是被迫做出随机猜测。形式上，D和G用值函数V(G，D)玩下列极小极大博弈：

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

其中PDATA是真实样本的分布，而PZ是随机先验的分布，通常使用N（0, 1）。G和D迭代优化各自的参数θg和θd如下

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

其中m是小批的大小，α是步骤的大小。然而，在实践中，G可以被训练成最大的log(D(G(Z)，而不是最小化log(1−D(G(Z)，以便在耳朵中提供更强的梯度。

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

medGAN

由于发生器G是由鉴别器D的误差信号通过反向传播来训练的，所以原始的GaN不能直接学习离散病人记录x∈Z\C_c的分布。我们通过利用自动编码器来克服这个限制。自动编码器被训练将给定的样本投影到一个低维空间，然后将它们投影回原来的空间。这种机制引导自动编码器学习样本的显著特征，并已成功地应用于某些应用中，如图像处理(Goodfreer等人，2016年；Vincent等人，2008年)。我们申请自动编码器学习离散变量的显着特性，这些变量可以用来解码G的连续输出，这允许从D到解码器Dec的梯度流，从而使终端到e。Nd微调如图1所示，自动编码器由编码器Enc(x；θenc)组成，它将输入的x∈Z_c_x压缩为Enc(X)∈R_h，并由解码器DEC(Enc(X)；θDec)解压缩Enc(X)到12月(Enc(X)作为原始输入x的重构。自动编码器的目标是最小化重建误差：

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

其中m是小批的大小。计算变量采用均方损失(Eq.(2)，二元变量采用交叉熵损失(Eq.(3)。对于计数变量，我们使用修正的线性单位。t(Relu)作为Enc和12月份二元变量的**函数，我们使用tanh**来表示enc，再用Sigmoid**对dec 1进行自动编码器，我们可以允许gan生成d。病人记录的分布式表示(即编码器的输出)，而不是直接生成离散记录。由于发生器G和编码器Enc都生成类似的Conti解码器DEC可以拾取右信号以将合成连续样本G(z)∈Rh转换为离散样本dec(g(z))∈Z&bar;c&bar;+。
对鉴别器D进行训练,以确定WHE,给定的输入是一个合成样本Dec(G(Z)或一个实际样本x。拟议模型medGAN的体系结构如图1所示。a如下，

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

注意，我们微调译码器θDec的预训练参数，同时对G进行优化，因此生成器G可以看作是一个具有额外隐藏层的神经网络，预先训练以映射。连续样本到离散样本。除了输出层外，我们对G的所有**函数都使用了relu，其中我们使用了tanh函数2。对于D，我们使用relu作为所有**Functi除了输出层外，我们使用Sigmoid函数进行二进制分类。

模式崩塌

由于发生器G的目标是产生能够欺骗鉴别器D的样本，G可以学会将不同的随机先验z映射到相同的合成输出，而不是产生潜水。RSE合成产出。这个问题被称为模式崩溃，这很可能是由于GaN的优化策略常常解决最大-min问题而不是min-max问题(Goodf)引起的。已经提出了一些处理模式崩溃的方法，例如小型批处理识别和展开gans，但是它们需要对超参数进行一些微调，或者是可伸缩性无法得到解决。

medGAN提供了一种简单有效的方法——小批平均法。允许鉴别器D分别查看小批真实样本x1、x2、.以及假样本G(Z1)、G(Z2)、…的小批次，同时对真实样本和假样本进行分类。各位。在给定一个样本进行判别时，小批识别计算出该样本与小批中所有样本在潜在空间中的距离。相比之下，小批量平均提供了S小批样品的平均值为D，修改目标如下 Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

具体来说，小型批处理的平均值是连接在样本上并提供给鉴别器D的。

强化生成器训练

根据经验，我们观察到小批平均训练mdGAN显示，经过多次迭代，D始终优于G。虽然G在这种情况下仍然能够学习，但性能似乎不太理想，在每次迭代中，D更新比Tyd D更经常地降低性能。考虑到最优D（GooFisher，2016）的重要性，我们选择不限制D判别能力，而是通过应用批处理规范化和快捷连接来提高G的学习效率。G的k层现表述如下：

Generating Multi-label Discrete Electronic Health Records using Generative Adversarial Networks阅读笔记

其中relu是校正线性单元，bnk是k层的批归一化，wk是k层的权矩阵，xk−1是前一层的输入。右侧图1描述了G.Note的前两层，即我们没有将偏差变量增加到每一层，因为批处理归一化否定了偏差项的必要性。另外，批处理归一化和快捷连接可以应用于鉴别器D，但是实验表明，如果没有这种技术，D总是压倒G，我们经验发现一个简单的前馈网络足以满足D