本文参考的原始论文地址https://arxiv.org/abs/1703.06490v1
摘要
获取电子健康记录(EHR)数据推动了医学研究的计算进步。然而,各种对隐私的关注,会限制我们的访问和协作。共享综合EHR数据可以减少风险。该文提出了一种新的方法-医学生成对抗网络(MedGAN),来生成真实的综合EHRs。基于作为输入EHR数据集,medGAN可以通过自动编码器和生成对抗性网络的组合生成高维离散变量(例如二进制和计数特征)。同时通过小批次平均可以有效地避免模式崩溃,并通过批量归一化和快捷连接来提高学习效率。为了证明可行性,该文展示了medGAN基因。在包括分布统计、预测建模任务和医学专家评审在内的许多实验中,对实现与实际数据相当性能的合成EHR数据集进行评级。
主要贡献
(1)提出了一种高效的生成高维多热离散样本的算法-medGAN。特别是,medGAN可以同时处理二进制变量和计数变量。
(2)medGAN将输入的EHR数据转换成一个程序,该程序可以生成任意大容量的高质量、高维合成患者数据。
(3)提出了一种简单而有效的小批量平均方法来处理GAN学习生成低分集样本的情况,即“模式崩溃”问题,并且相比以前的小型批处理识别,该方法效果更好
(4)在分布统计、分类性能和医学专家评审等不同任务上使用真实的EHR数据集来演示medGAN的接近真实数据的性能。
medGAN框架
离散x来自源EHR数据,z是genrator G的随机先验;G是具有快捷连接的前馈网络(右侧图);ncoder(即编码器Enc和解码器Dec)是从x中学习的,在生成器G之后使用相同的解码器Dec来构造离散输出。判别符D试图区分PUTX和离散合成输出DEC(G(z))
初步:生成对抗网络
在GaN中,发生器G(z;θg)接受随机先验z∈Rr并生成合成样本G(Z)∈Rd,而判别器D(x;θd)决定给定样本是真还是假。大最优鉴别器D∗可以很好地区分真实样本和假样本。最优生成器G∗将生成与实际样本无法区分的假样本,因此D是被迫做出随机猜测。形式上,D和G用值函数V(G,D)玩下列极小极大博弈:
其中PDATA是真实样本的分布,而PZ是随机先验的分布,通常使用N(0, 1)。G和D迭代优化各自的参数θg和θd如下
其中m是小批的大小,α是步骤的大小。然而,在实践中,G可以被训练成最大的log(D(G(Z),而不是最小化log(1−D(G(Z),以便在耳朵中提供更强的梯度。
medGAN
由于发生器G是由鉴别器D的误差信号通过反向传播来训练的,所以原始的GaN不能直接学习离散病人记录x∈Z\C_c的分布。我们通过利用自动编码器来克服这个限制。自动编码器被训练将给定的样本投影到一个低维空间,然后将它们投影回原来的空间。这种机制引导自动编码器学习样本的显著特征,并已成功地应用于某些应用中,如图像处理(Goodfreer等人,2016年;Vincent等人,2008年)。我们申请自动编码器学习离散变量的显着特性,这些变量可以用来解码G的连续输出,这允许从D到解码器Dec的梯度流,从而使终端到e。Nd微调如图1所示,自动编码器由编码器Enc(x;θenc)组成,它将输入的x∈Z_c_x压缩为Enc(X)∈R_h,并由解码器DEC(Enc(X);θDec)解压缩Enc(X)到12月(Enc(X)作为原始输入x的重构。自动编码器的目标是最小化重建误差:
其中m是小批的大小。计算变量采用均方损失(Eq.(2),二元变量采用交叉熵损失(Eq.(3)。对于计数变量,我们使用修正的线性单位。t(Relu)作为Enc和12月份二元变量的**函数,我们使用tanh**来表示enc,再用Sigmoid**对dec 1进行自动编码器,我们可以允许gan生成d。病人记录的分布式表示(即编码器的输出),而不是直接生成离散记录。由于发生器G和编码器Enc都生成类似的Conti解码器DEC可以拾取右信号以将合成连续样本G(z)∈Rh转换为离散样本dec(g(z))∈Z&bar;c&bar;+。
对鉴别器D进行训练,以确定WHE,给定的输入是一个合成样本Dec(G(Z)或一个实际样本x。拟议模型medGAN的体系结构如图1所示。a如下,
注意,我们微调译码器θDec的预训练参数,同时对G进行优化,因此生成器G可以看作是一个具有额外隐藏层的神经网络,预先训练以映射。连续样本到离散样本。除了输出层外,我们对G的所有**函数都使用了relu,其中我们使用了tanh函数2。对于D,我们使用relu作为所有**Functi除了输出层外,我们使用Sigmoid函数进行二进制分类。
模式崩塌
由于发生器G的目标是产生能够欺骗鉴别器D的样本,G可以学会将不同的随机先验z映射到相同的合成输出,而不是产生潜水。RSE合成产出。这个问题被称为模式崩溃,这很可能是由于GaN的优化策略常常解决最大-min问题而不是min-max问题(Goodf)引起的。已经提出了一些处理模式崩溃的方法,例如小型批处理识别和展开gans,但是它们需要对超参数进行一些微调,或者是可伸缩性无法得到解决。
medGAN提供了一种简单有效的方法——小批平均法。允许鉴别器D分别查看小批真实样本x1、x2、.以及假样本G(Z1)、G(Z2)、…的小批次,同时对真实样本和假样本进行分类。各位。在给定一个样本进行判别时,小批识别计算出该样本与小批中所有样本在潜在空间中的距离。相比之下,小批量平均提供了S小批样品的平均值为D,修改目标如下
具体来说,小型批处理的平均值是连接在样本上并提供给鉴别器D的。
强化生成器训练
根据经验,我们观察到小批平均训练mdGAN显示,经过多次迭代,D始终优于G。虽然G在这种情况下仍然能够学习,但性能似乎不太理想,在每次迭代中,D更新比Tyd D更经常地降低性能。考虑到最优D(GooFisher,2016)的重要性,我们选择不限制D判别能力,而是通过应用批处理规范化和快捷连接来提高G的学习效率。G的k层现表述如下:
其中relu是校正线性单元,bnk是k层的批归一化,wk是k层的权矩阵,xk−1是前一层的输入。右侧图1描述了G.Note的前两层,即我们没有将偏差变量增加到每一层,因为批处理归一化否定了偏差项的必要性。另外,批处理归一化和快捷连接可以应用于鉴别器D,但是实验表明,如果没有这种技术,D总是压倒G,我们经验发现一个简单的前馈网络足以满足D