【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

疾病分类采用多层级逐层分类，如上图第一步按人体器官进行划分，然后再逐层细分。文章对不同层级疾病进行效果评估，评估方式是机器识别和初级医师、高级医生进行对比，结果显示机器分类性能优于初级医师。

【NLP+医学】Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence
此图是文章所用方法的重点。

0 从raw data中找出候选vocab，结合第三方医学词库，人工review后构建vocab词表；
1 以vocab作为分词工具的词表资源，对输入的raw data进行分词，得到token；
2 使用word2vec对tokens进行语义训练，得到token对应的embedding；
3 使用LSTM网络框架对<Query-rawdata, Ans>进行建模，模型输出做为特征
- 3.1 人工设计N个Queries，对每条raw data进行query回答，结果可以是「0/1」或者「器官部位」等，可以看着是个分类问题；
- 3.2 N个query和M个raw data，可以构建N*M条样本，人工从中选取若干条进行标注，作为模型训练样本；
- 3.3 对每条raw data与N个Query构建Query-rawdata作为样本，过LSTM模型后的结果作为rawdata的「特征向量」；
- 3.4 对raw data的「特征」使用LR模型进行「疾病分类」；
4 「疾病分类」采用多层分类方案，逐层分类，每层给出独立的效果评估；

1 文章没有找到设计Query的量，这个量关系到rawdata的特性向量长度；
2 EHR数据量很大，对应了rawdata的量，与query叉乘后作为样本池，这个量就更大了，rawdata对应query「是或否」的结果，目测应该是「负样本量远大于正样本」，文章只选用了6000+多条作为样本标注，感觉这个量太少了；
3 在Extended Data2中是以「句子」作为输入的，「主诉和检验报告单」通常一两句描述，但「现病史」往往文本较长，文章没有讲「句子」如何选取？
4 LSTM模型讲引用了「Effictive approaches to attention-based neural machine translation」这篇论文，但该篇论文主要讲了「翻译模型中的attention方法」，感觉文章中的LSTM模型更多应该是「多分类」模型。