作者
佛罗里达大西洋大学
- Richard A. Bauder
- Taghi M. Khoshgoftaar
摘要
医疗保健是人们生活中不可或缺的组成部分,尤其是对年龄不断增长的老年人来说,而且必须让人们负担得起。医疗保险就是这样一个医疗保健项目。索赔欺诈是医疗成本增加的主要原因,但其影响可以通过欺诈检测来减轻。在本文中,我们比较了几种机器学习方法来检测医疗保险欺诈。我们使用四种性能指标和通过过采样和 80-20 欠采样方法减少类别不平衡,对有监督、无监督和混合机器学习方法进行了比较研究。我们将 2015 年医疗保险数据分为提供商类型,欺诈标签来自“排除个人/实体列表”数据库。我们的结果表明,通过 80-20 的抽样方法,成功检测欺诈性提供者是可能的,在所有学习者中表现最好。此外,有监督的方法比无监督的或混合的方法表现更好,但是这些结果基于类不平衡采样技术和提供者类型而不同。
主要内容
我们使用 10 种技术,并将它们分为三组:有监督的、无监督的和混合的。
监督学习器由梯度提升机、随机森林、深度神经网络和朴素贝叶斯组成。
无监督方法包括:自动编码器、马氏距离、k 近邻和局部离群因子(LOF)。
最后一组是我们所说的混合学习,它包括一个使用无监督自动编码器预训练的神经网络模型和另一个使用多元回归和贝叶斯概率组合的方法。
因为标签数据很少,我们使用两种方法来缓解欺诈和正常数据标签之间的极端类别不平衡。
第一种技术应用过采样来帮助平衡类别,而第二种技术使用欠采样强制进行 80%正常和 20%欺诈数据分割。
欺诈检测性能是用四种不同的度量标准来衡量的:
- accuracy
- F-measure
- G-measure
- Matthew’s Correlation Coefficient (MCC)
最后,提供了统计分析,通过方差分析(ANOVA)和Tukey HSD的事后分析[45]来证明实验结果的重要性。
我们的研究结果表明,监督学习可以明显优于其他类型的学习,尤其是在更合理的类别平衡的情况下。此外,当数据严重不平衡时,无监督方法的表现类似于大多数有监督的学习方法。
Methodology
讨论和结果
与过采样相比,80-20 采样技术具有更好的学习性能。总的来说,过采样对所有学习者来说都表现不佳。
正在进行的研究和未来的工作将涉及通过参数和超参数调整来提高模型性能。未来的研究将考虑增加更多的医疗保险数据集,加上额外的 LEIE 排除标签,以及对类别不平衡使用不同的抽样方法。最后,使用无监督和有监督的模型来检测带有有限数量标签的欺诈,将利用两者的优势。