Visual Analysis of Discrimination in Machine Learning

作者

香港科技大学

Qianwen Wang
Zhenhua Xu
Zhutian Chen
Yong Wang
Huamin Qu

清华大学

Shixia Liu

摘要

在犯罪预测和大学录取等关键应用中，自动决策的使用越来越多，这引发了对机器学习公平性的质疑。我们如何决定不同的待遇是合理的还是歧视性的？在这篇文章中，我们从视觉分析的角度研究了机器学习中的歧视，并提出了一个交互式可视化工具 DiscriLens，以支持更全面的分析。为了揭示算法歧视的详细信息，DiscriLens 基于因果建模和分类规则挖掘来识别潜在区分项集的集合。通过将扩展的欧拉图与基于矩阵的可视化相结合，我们开发了一种新的集合可视化，以方便对区分项集的探索和解释。一项用户研究表明，用户可以快速准确地解释 DiscriLens 中的视觉编码信息。用例表明，DiscriLens 在理解和减少算法歧视方面提供了有用的指导。

Visual Analysis of Discrimination in Machine Learning

Introduction

机器学习在最近几十年取得了巨大的进步，并成为各种应用中的有用技术，包括信用评分、犯罪预测和大学入学。由于这些领域的决策可能有道德或法律问题，模型用户超越模型准确性并考虑最大似然模型的公平性至关重要。

已经从三个主要方面提出了许多方法来评估和减轻歧视:调查训练数据中的歧视的预处理方法，调整模型学习过程的过程中方法，以及修改歧视性模型预测的后处理方法。然而，这些研究通常将歧视形式化为汇总统计数据，并可能阻碍详细评估。同时，这些研究简单地假设歧视的表征已经被明确定义，这在实践中通常是不成立的。

由于歧视的复杂性，它没有明确和统一的定义，在不同领域的表现也有很大差异。在这项研究中，我们开发了一个可视化的分析工具，使领域知识的参与和支持一个系统的对歧视的评估，从而进一步有利于歧视的分析和减轻。

我们将一组相似的人视为由一系列属性值定义的项目集(例如，{测试分数=低，专业=CS})。当定义很长且很复杂时，这些项目集的可解释性会被严重削弱。此外，这些项目集的数量可能很大，并且这些项目集通常错综复杂地交织在一起。因此，帮助用户感知这些项目集并解释区分是非常重要的。

为了应对这些挑战，我们设计并实现了 DiscriLens，这是一个交互式可视化工具，便于对算法区分进行简单的解释、评估和比较。在 http://discrilens.hkustvis.org 有一个演示(建议用 Chrome 打开)。我们开发了一个三阶段管道，基于因果建模和分类规则挖掘来识别潜在的歧视性项目集集合。提供了一组用户交互来将人类领域知识结合到判别分析中。提出了一种新的基于欧拉的可视化方法——RippleSet，以提供一种有效的判别方法。RippleSet 将一个集合表示为几个相邻的圆，而不是一个凸形，从而避免了传统欧拉图中的重叠。我们进一步将 RippleSet 与基于矩阵的可视化相结合，以支持用户从多个方面检查区分项集。我们通过一个用户研究和使用案例来证明 DiscriLens 在分析歧视方面的有
效性。

Contribution

设计和开发一个交互式视觉分析工具，具有一套新颖的可视化技术，用于分析机器学习中的辨别。
一项用户研究和一系列评估 DiscriLens 的实用性和可用性的用例。

Related Work

Discrimination in Machine Learning
Visual Analysis for ML Discrimination
Set Visualization

DISCRIMINATION: A MATHEMATICAL NOTATION

Visual Analysis of Discrimination in Machine Learning

Designing DiscriLens

Design Goals

定制歧视的定义
衡量歧视的程度
识别歧视状况
描绘歧视的分布
比较歧视

System Overview

Visual Analysis of Discrimination in Machine Learning
DiscriLens 由两个主要模块组成:发现模块和可视化模块(图 4)。发现模块将训练数据、模型和用户定义的保护组作为输入。然后，它通过一个三阶段的管道，并产生一个潜在的歧视性项目集的集合。可视化模块作为一个界面，帮助理解歧视，以及一个工具，提供应用和改进模型的指导。

DISCRIMINATION DISCOVERY

Visual Analysis of Discrimination in Machine Learning

Visual Interface

Visual Analysis of Discrimination in Machine Learning

Interactions

Filter Itemsets & Modify Resolving Attributes
Coordinate RippleSet with Attribute Matrix

Visual Analysis of Discrimination in Machine Learning

LABORATORY STUDY

Visual Analysis of Discrimination in Machine Learning

对于每个参与者，两个数据集随机地与两个条件相关联(DiscriLens 和基线)，并且以相反的平衡顺序呈现。在正式研究之前，每个参与者都接受了 20 分钟的辅导，学习工具，完成试验任务，并自由提问。在每种情况下，参与者完成四项任务。在这项用户研究中，参与者是随机排序的。最后，每个参与者完成一份研究后问卷，并接受一次简短的非正式访谈。

Visual Analysis of Discrimination in Machine Learning

Use Cases

除了实验室研究之外，我们还通过用例进一步证明了 DiscriLens 在分析算法区分方面的有效性。这些案例是与两名机器学习专家(E1 和 E2)和一名领域专家(一名具有十多年教学经验的教授(E3))合作进行的。

我们主要使用 xAPI 数据集进行演示，更多用例可在补充材料中找到。xAPI 数据集中的每个数据点都有 9 个学生属性(例如，举手、缺勤天数)和一个指示该学生的考试分数是否超过 69 的二进制标签。我们设置性别=女性为保护组，τ = 0.25。训练了六种不同类型的最大似然模型:XGBoost、k 近邻(KNN)、逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)和决策树(DT)。所有六个模型的超参数都经过调整，使用 AutoML 实现了 5 倍交叉验证精度的最大化。

Visual Analysis of Discrimination in Machine Learning

专家们提到并讨论了信任问题。E3 怀疑训练数据可能遗漏了一些与学生表现相关的属性。他还评论说，定罪分析的结果受到分析人员的选择的影响(例如，关键属性的设置)。"两位分析家可能会得出相反的结论。"机器学习专家 E1 建议将算法识别和人类识别进行比较，以增加用户的信心。“即使一个模型做出了歧视性的预测，它仍然可以比人类少一些偏见，因此是有帮助的。”

Discussion

对于鉴别发现，在一台 PC (2.3GHz 双核，英特尔酷睿 i5 处理器)上运行 4，000 个样本和 14 个功能的四阶段流水线大约需要 6 分钟。主要的瓶颈在于 FEGS 算法(两分钟)、FP-Growth 算法(一分钟)和歧视性规则挖掘(三分钟)。

Rippleset 的可扩展性主要受集合个数和项目个数的限制。

在 DiscriLens 中，我们允许用户自定义区分的定义，并支持人类领域知识的集成。虽然这一特性被受访专家视为一种优势，但我们也承认，用户定制在歧视分析中可能是一把双刃剑。

同时，当前版本的 DiscriLens 仅支持一个受保护属性的分析，并要求用户将受保护组定义为输入。

与其他可解释的模型(如决策树)相比，我们的研究在解释已识别的区分方面提供的支持有限。

我们承认 DiscriLens 中新颖而复杂的可视化设计会给用户带来挑战，尤其是那些没有视觉分析知识的用户。

Conclusion

在这项工作中，我们设计并开发了 DiscriLens，这是一种交互式可视化工具，有助于更好地理解和分析算法歧视。开发了一个四阶段管道，用于发现歧视性预测。为了有效地展示，通过将扩展的欧拉图与基于矩阵的集合可视化相结合，设计了一种新颖的集合可视化。两个案例研究展示了 DiscriLens 在理解和消除算法歧视方面的可用性和实用性。上下文感知拒绝选项是一种后处理方法，被提出用于更好地消除歧视，同时减少准确性损失。我们还报道了在 DiscriLens 的开发和评估过程中获得的对算法歧视的见解。