作者
香港科技大学
- Qianwen Wang
- Huamin Qu
牛津大学
- William Alexander
- Jack Pegg
- Min Chen
摘要
在这篇文章中,我们提出了一个可视化分析工具,用于实现基于假设的机器学习模型评估。我们描述了一个新的最大似然检验框架,它将传统的统计假设检验(通常用于实证研究)与关于多个假设结论的逻辑推理相结合。该框架定义了一个受控配置,用于测试关于“概念”或“特征”的一些额外信息是否以及如何有利于或妨碍最大似然模型的一些假设。因为推理多个假设并不总是简单明了的,所以我们提供了 HypoML 作为可视化分析工具,通过它,多线程测试数据被转换成可视化表示,以便快速观察结论以及测试数据和假设之间的逻辑流。我们已经将 HypoML 应用于许多假设的概念,展示了视觉分析的直观和可解释的性质。
Introduction
在计算机视觉、数据挖掘和机器学习中,特征是表征数据对象(例如,图像、时间序列、多变量记录等)的特定种类的属性或属性的可测量变量。)。这些领域的许多技术解决方案在很大程度上依赖于模型开发人员对各种特性的知识,包括以人为中心的特性工程,作为模型开发工作流程中的一个关键过程
另一方面,设计了一些其他技术解决方案以最小化对潜在有用特征的人类知识的依赖。例如,在深度学习中,神经网络通常被期望学习如何自动提取大量有用的特征。与此同时,也有人担心一些所谓的“有用”功能实际上可能是有害的,因为它们会导致不良后果。不可避免的是,模型开发人员对 ML 模型可能已经学到或没有学到的特性感兴趣。
在这项工作中,我们提出了一种新的可视化分析方法,使模型开发人员能够使用他们的知识和主动性来假设和评估任何特征是否有用或有害,这种特征是否被模型所学习,以及它如何影响所学习的模型。特别是,我们概述了一个系统地测试这些假设的框架,并描述了用于从多组测试结果中推断关于多个假设的结论的基础统计和逻辑分析。因为许多模型开发人员可能不熟悉或不记得底层的统计和逻辑分析,我们开发了一个虚拟分析工具 HypoML,用于执行分析和描述推理流程,便于快速观察结论以及测试数据和假设之间的逻辑流程。
Related Work
最近建立的本体 VIS4ML [SKKC19]显示,ML 过程可以从可视化中受益。
评估最大似然模型的方法可以分为两大类:黑盒分析和白盒分析。总部在这里,我们将我们对先前工作的回顾集中在以可视化技术为特征的模型评估上。
在这项工作中,我们提出了一个新的最大似然测试框架,结合黑盒和白盒分析。最大似然模型是否学会了一个概念或特征是一个典型的“内部问题”,需要用白盒分析来研究。新框架允许模型开发人员以黑盒分析的方式调查“内部问题”。
Concept-Based Testing of ML Models
HypoML 是为了支持计算分析而设计的。特别是,它为评估一组假设提供了统计和逻辑分析。统计分析是基于成熟的假设检验方法,而逻辑分析是在本工作中形成的,用于推理 12 个假设和从不同对结果中得出的 6 个统计结论之间的交织关系。为了帮助用户理解这种复杂的关系,HypoML 提供了一种专门设计的可视化表示,使用户能够将每个假设的结论追溯到相关的统计分析和相应的测试结果。
基于假设的机器学习模型评价的可视化分析
与图 5 中的基本设计相比,用户更容易了解分析流程的概况,同时快速获得不同假设的结论。
模型开发人员将测试的结果传达给其他利益相关者,比如被评估的 ML 模型的用户。一些模型开发人员和许多模型语言用户可能很难记住和推理实验结果、统计和逻辑分析以及多个假设之间的复杂关系。因此,有效的视觉表现是必要的。图 5 所示的二分图是一个简单的解决方案,但是它显示了几个缺点,这些缺点阻碍了有效的信息获取和有效的信息传播。
一个主要的缺点是六个统计比较和十二个假设之间的混乱联系。这些链接没有明显或令人难忘的结构,很难用眼睛跟踪。人们可以在这些链接中添加额外的视觉编码来描述三种类型的结论(即拒绝、支持、未证实)和条件依赖性。然而,这样的编码会进一步使二分图更为混乱。为了解决这个问题,我们设计了一个基于矩阵的可视化
Results and Discussions
本节中报告的测试主要是为了测试 HypML,以查看 HypML 是否能够从四组结果正确地转换为关于 12 个假设的结论的视觉表示。显示的例子并不是为了建立任何特定的最大似然技术的优点,而是为了展示最大似然技术的实际应用。如果开发人员怀疑 ML 模型可能有缺点,HypoML 可以帮助开发人员确认或拒绝这样的假设。对于卷积神经网络(CNN),一个普遍的观点是,CNN 越深、越大,CNN 就越有可能学到一个概念。总部当我们的测试显示某个特定的CNN模型没有充分学习到一个概念时,不一定意味着一个更复杂的CNN模型也不能学习这个概念。这确实是软件工程中测试的目的。测试的目标是发现模型或软件的缺点,以便改进模型或软件。
我们还对随机大小的类别标签和标签不正确的图像进行了其他几项测试。HypoML 也显示出有助于支持这种假设检验。
Conclusions
在本文中,我们提出了一个新的测试框架来帮助评估最大似然模型。具体来说,这个框架测试一组关于概念的假设,检查关于概念的额外信息是否可以使最大似然模型受益,如果是,那么这些额外信息如何影响模型。实验结果的统计分析以及关于六个统计结论和十二个假设之间关系的逻辑推理是测试框架的不足之处。通过这个框架 HypoML 的实现,我们证明了通过一个特意设计的可视化表示,一旦四组测试结果数据可用,模型开发人员就可以可视化关于十二个假设的结论。这种方法补充了观察各种监测中子活动的传统方法,如活化图和梯度上升图。模型开发人员,如果观察到任何有趣的模式或未能找到期望的模式,现在可以制定一个基于概念的假设,并进行结构化测试来评估他们的假设。
我们认识到,HypoML 只是开发一个强大的测试套件来评估、理解和解释模型的最终目标的众多步骤之一。在这个方向上需要进一步的理论和实践发展,包括,例如,为测试结果的子组分析制定更详细的逻辑分析,设计高级用户界面来支持子组分析的详细观察,以及与其他可视化技术相结合来观察、理解和解释最大似然模型。