KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

临床试验在药物开发中起着重要作用，但通常面临着患者招募成本昂贵、不准确及不充足等问题。大量的电子健康记录（Electronic Health Records，EHR）数据和临床试验招募条件（Eligibility Criteria，EC）为数据驱动的患者招募带来了新的机会。

如何将复杂的EC文本与时序的患者EHR进行匹配？如何在患者与试验之间建立多对多关系？如何处理入组标准和排除标准之间的差异？KDD 2020中《COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching》一文提出了Cross-Modal Pseudo-SiamEse网络（COMPOSE），以应对这些挑战。本期AI Time PhD直播间，我们很荣幸地邀请到论文的一作，美国伊利诺伊大学厄巴纳-香槟分校计算机学院一年级博士生高峻逸，为大家分享他们的这项研究工作！

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

高峻逸，美国伊利诺伊大学厄巴纳-香槟分校计算机学院一年级博士生，导师为Jimeng Sun教授，研究方向为医疗健康数据挖掘，已在AAAI、WWW、JAMIA上发表多篇论文。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

临床背景

临床背景一

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

什么是临床试验患者匹配？

电子健康记录（EHR）以电子化方式管理有关个人终生健康状态和医疗保健行为的信息，是一种高维的时序数据。患者的每次就诊都会生成一条数据记录，一般包括手术、诊断、药物三类信息（如图1左），这些信息以编码的形式存储于EHR中。目前国际上已有多种编码标准，如ICD-9、ICD-10、CCS等。机器学习模型训练时，将所有编码统一转换成独热编码（One-Hot）的形式。由于编码的总量非常庞大，可达到几万甚至几十万，所以患者的EHR数据通常是高维的。

临床试验数据通常是非结构化的文本数据，涵盖了入组标准和排除标准两个关键信息（如图1右）。这两个标准分别决定了试验制定人员想要招募和想要排除的患者类型，统称为临床试验招募条件（EC）。

临床试验患者匹配任务就是指根据EC给定的标准在EHR数据库中找到合适的患者，以有效进行后续的临床试验。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图1 临床试验患者匹配

临床背景二

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

为什么自动化的临床试验患者匹配很重要？

众所周知，新冠肺炎给世界各地都带来了巨大的挑战和沉痛的损失。截至4月10日，中国临床试验注册中心网站显示，共有586项与新冠肺炎有关的临床研究申报。但由于试验过多、临床资源有限，临床项目患者招募变得十分困难。

在此次新冠肺炎疫情中，瑞德西韦作为一款潜在有效药物，一度被认为是治愈新冠肺炎的希望。然而吉利德方面已经发表公开信宣布中国两项瑞德西韦临床试验，因入组停滞，针对重症患者的研究已停止，这一定程度上反映了所有临床试验患者招募所面临的共同困境。

临床试验是一项极为重要的任务，其年市场预估超过460亿美元。然而招募合适的患者是非常耗时且困难的，据统计有50%的临床试验由于招募不到合适的患者而被迫延迟，有25%的临床试验由于患者不足而完全无法开展。据估算每招募一名患者约花费6000至7500美元，成本可谓十分高昂。

因此，如果存在一种方法自动为临床试验匹配患者，便可节省大量的人力、物力，治愈更多的患者。传统的招募方式无非两大方向：TO B（找医生）和TO C（找患者）。早期的患者招募机构多采取线下招募的方式，即项目人员前往不同的城市、医院，乃至不同的目标科室，通过医生协助而接触目标患者，缩短医生和患者匹配搜索相关临床试验信息的耗时。

然而，医生方面，大量的资料需要人工整理、核查，真正面向患者的时间较少，难以实时掌握不断更新的临床试验信息。患者方面，由于缺乏专业的医疗知识，对检索到的大量临床试验信息无法准确理解。招募者方面，需要需要仔细设定筛选标准，既不能太宽松，也不能太严格。这些都是临床试验患者匹配中亟待解决的问题，而研究人员希望通过深度学习可以得以解决。

挑战

但是利用深度学习处理临床试验患者匹配问题并不简单，面临三个主要的技术挑战。

挑战一

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

多粒度的医学概念

非结构化的EC数据包含的通常是抽象的医疗概念，而患者的EHR中记录的是较为详细的编码。举例来说，一个关于心脏病的临床试验入组标准要求患者有三年以上的心血管疾病，但实际上心血管疾病有多种类型，比如风湿性心脏病、高血压性心脏病、心肌炎等。如何将患者EHR中详细的编码与抽象的概念对应起来，处理概念之间粒度的不同成为了研究的一个难点。

挑战二

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

患者与临床试验之间的多对多关系

实际情况中，患者可能参与了不止一个临床试验，而临床试验也不可能只招募一个患者。为了在不同的模态之间进行匹配，需要将患者的embedding（嵌入）和临床试验的embedding映射到同一空间。但由于每个临床试验通常只与特定的疾病有关，所以临床试验之间的语义距离可能会非常大。此前的一些相关工作将患者的embedding强行和不同试验的embedding对齐，导致无法学习到一个很好的映射函数，从而使匹配结果变差。最坏情况下，学习到的映射函数会将患者的embedding映射到不同试验之间的平均位置上。

挑战三

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

显式处理入组/排除标准

入组标准和排除标准描述了想要和不想要的目标患者，但可能无法从一条标准本身判断是入组标准还是排除标准。比如一条标准要求年龄大于18岁，但它既可能是入组标准，也可能是排除标准。如果判断失误，就会招募出两组完全不同的患者。此前的深度学习方法并没有细致区分每个临床试验的每条标准，通常将一个临床试验所有的标准视为一个文档，把文档和不同的患者进行对齐，这显然会严重影响匹配的准确性。

方法

为解决以上挑战，高峻逸等提出了COMPOSE模型，优化临床试验患者匹配过程。COMPOSE是一种伪孪生网络，包含卷积神经网络和记忆网络两个分支：1）基于卷积神经网络的分支学习EC的embedding；2）基于医疗概念拓扑结构的记忆网络分支学习患者EHR的embedding。利用动态对齐和匹配机制生成最终的匹配结果。COMPOSE模型将患者和临床试验两种不同模态的数据匹配到同一特征空间，利用EC的embedding作为Query查询记忆网络，从而在患者embedding中取出与之最相关的表示（Matched Memory）。然后，通过交叉熵损失函数和一个额外的相似性损失函数共同优化最终的匹配结果。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图2 COMPOSE的方法概述

方法一

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

临床试验 EC的embedding

利用卷积高速网络学习临床试验EC的embedding，希望最终得到的句子embedding可以保留整个句子层面的语义，同时能捕捉到句子中的细节信息。整个过程如下：1）使用预训练的BERT为EC中的每个单词生成word embedding（词嵌入），BERT是基于PubMed文本资源和MIMIC-III数据库预训练得到的；2）利用多个卷积核大小不同的一维卷积层来捕捉句子中不同粒度的语义信息；3）输入卷积高速网络，利用max pooling（最大池化）进行降维，获得最终试验EC的embedding。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图3 EC的embedding

方法二

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

患者EHR的embedding

之前介绍到，患者EHR数据中每一次就诊都可以用手术、诊断、药物三种形式的医疗概念来表示，每一种医疗概念又可以被划分为不同的层级。在COMPOSE模型中，使用USC（the Uniform System of Classification ）拓扑结构将每个医疗概念划分为四个层级。从第一层到第四层，医疗概念的粒度逐渐由抽象走向具体。将记忆网络划分为三个子网络，分别存储手术、诊断、药物的信息。此外，还设计了一个额外的记忆slot来存储患者的人口统计信息，比如年龄、性别等。每个子网络包含的四个记忆slot与医疗概念的四个层级相对应，完整详细地记录了患者每次就诊的信息。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图4 患者EHR的embedding

值得注意的是，在EC中通常使用的是疾病的名称，而患者EHR中往往储存的是疾病的编码。那么如何将两者对应起来？COMPOSE模型的解决办法是将患者EHR中的编码转换成对应的名称，而不像传统模型使用One-Hot编码。通过这种方式，可以帮助模型更容易地匹配两种模态数据之间的医疗概念。另外，由于患者的EHR数据是一种时序数据，包含不止一次的就诊信息，所以需要在患者每次就诊时对记忆网络进行更新。COMPOSE模型采用先擦除再更新的机制，先计算擦除权重再计算更新权重。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图5 擦除-更新机制

方法三

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

基于注意力的记录对齐和动态匹配

此前的临床试验患者匹配模型通常会把患者整个EHR的embedding和不同临床试验的embedding进行对齐，导致结果不尽如人意。为了解决这一问题，COMPOSE模型提出将每条筛选标准和患者的embedding中与之最相关的部分对齐。将入组标准/排除标准作为Query，查询整个记忆网络。同时为每个记忆网络里的每个slot计算注意力权重，权重越高证明这一slot储存的信息与这条标准越相关。得到注意力权重之后，通过加权平均得到最佳的匹配记忆。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图6 记录对齐和动态匹配

方法四

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

显式处理入组/排除标准

为了能够显式处理入组标准与排除标准之间的差别，COMPOSE模型设计了两部分损失函数。第一部分是常规的分类损失函数，即交叉熵损失函数，用于优化预测结果和ground truth之间的差距。第二部分是一个额外的基于余弦距离的损失函数，用于处理入组标准和排除标准。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图7 显式处理入组/排除标准

实验

为评估COMPOSE模型的性能，使用以下数据来进行实验：

1）临床试验数据

从公开的数据来源（clinicaltrials.gov）中随机选择了590个不同疾病领域的临床试验。从这些试验中提取入组标准和排除标准，共获得了12445条标准级（即句子级）EC语句。

2）患者EHR数据

从IQVIA真实患者数据库中提取患者EHR数据。2002年到2018年，实验共收集83371位患者的EHR，每位患者至少与所用试验数据集中的一项试验相匹配。

将每个入组/排除标准及其对应的匹配患者的EHR标记为“匹配” /“不匹配”。对于每个患者，从另一个试验中随机抽取一个入组标准和排除标准，并将其标记为“未知”。最终，总标记3921321个数据对。当患者与临床试验所有的入组标准都“匹配”，与所有的排除标准都“不匹配”时，认为该患者与该临床试验是完全匹配的。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图8 标记定义

实验结果表明，COMPOSE模型在所有评估指标中，在临床试验级和筛选标准级匹配方面均优于所有基线模型。在患者-试验匹配上可以达到83.7％的准确率，相比于最佳基线模型提高了24.3％。在患者-标准匹配上可以达到98.0％的AUROC，准确率相较最佳基线模型提高了8.8%，AUROC提高了4.7％。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图9 实验结果

讨论一

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

不同长度的患者就诊记录

从图11中可以看到，对于大多数模型，具有短和中等记录长度的患者匹配更加容易。与基线相比，COMPOSE模型拥有最稳定的性能，这是因为COMPOSE使用动态记忆网络来存储患者的EHR信息，从而具有更好的能力在不同的位置保留细粒度的信息。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图10 讨论一的实验结果

讨论二

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

不同的疾病类型

选择慢性病、肿瘤和罕见病三种，以探索COMPOSE模型在不同类型疾病上的表现。实验结果表明，COMPOSE总体上胜过其他基线模型，并且对于慢性病的准确率相对更高。对于肿瘤和罕见疾病，大多基线模型无法匹配到正确的患者，但COMPOSE仍然可以达到比较好的效果。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图11 讨论二的实验结果

讨论三

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

不同的临床试验阶段

从图12针对临床试验不同阶段的实验结果中可以很容易地看出，COMPOSE模型在不同阶段的性能明显优于其他模型。在I期试验中的准确度提高了155％，在II期试验中的准确度提高了19％，在III期试验中的准确度提高了27％。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图12 讨论三的实验结果

讨论四

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

不同的匹配阈值

在实践中，某些入组或排除标准可能太严格以至于无法找到合适的患者，招募方可以通过修改标准或设定不同的阈值来调节这一问题。那么不同的阈值下，匹配的准确性将如何变化？实验表明，COMPOSE模型在设定的70%、80%、90%三种阈值情况下，都达到了高于或接近90%的准确率。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图13 讨论四的实验结果

案例研究一

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

记忆slot上的注意力权重

为了说明注意力记录对齐机制在COMPOSE中是如何工作的，选择了一个治疗IV级星形细胞肿瘤的Cabozantinib药物试验。图14给出了6个入组标准在不同记忆slot上的注意力权重，颜色越深代表该标准和对应记忆slot越相关。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图14 记忆slot的注意力权重

案例研究二

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

失败的案例

研究发现，有些试验很难找到匹配的患者，例如图15给出早期非小细胞肺癌试验。在该试验中，所有模型的准确度得分均低于50％。由于EHR数据不足以确定患者是否符合这些标准，COMPOSE将I2、I3、I4三条都匹配到了“未知”上。若想匹配成功，需要临床试验的招募方不仅仅依赖于患者的EHR数据，还要加入更多的数据源，达到更精确的匹配。如何纳入更多元的数据类别，也是未来一个重要的研究方向。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

图15 失败的案例

论文原文：COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching. Junyi Gao, Cao Xiao, Lucas M. Glass, Jimeng Sun

论文链接：https://arxiv.org/abs/2006.08765

源代码：https://github.com/v1xerunt/COMPOSE

整理：何文莉

审稿：高峻逸

排版：田雨晴

AI Time欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你，请将简历等信息发至[email protected]！

微信联系：AITIME_HY

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

AI Time是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

KDD 2020顶会论文:如何为临床试验匹配最合适的患者？

更多资讯请扫码关注

（点击“阅读原文”下载本次报告ppt）

（直播回放：https://www.bilibili.com/video/BV1Jk4y117ff）