如何安全地扩展人工智能——数据科学家扮演什么角色？

我们中的大多数人都清楚，由于人为偏见，数据可能会出现许多问题：结果的差异、不公平的政策、失去的机会等等。由于人工智能的力量被应用于敏感情况，我们担心机器学习和偏见的混合所带来的危险。那我该怎么办？

负责任的人工智能是组织构建 AI 模型开发管道的框架，同时优雅地解决意外后果的可能性。作为参与模型构建的数据科学家，您可能会觉得您对意外后果的控制较少，但事实并非如此。

此博客是 Dataiku 产品日会议的摘要。在会议中，Dataiku 的 Jacqueline Kuo（解决方案工程师）、Sibongile Toure（数据科学家）和 Andy Samant（高级数据科学家）将讨论如何使用负责任的 AI 以及 Dataiku 针对此类项目目标的不同能力。与演示一起使用。

→ 单击此处查看会话。

什么是构建 AI 管道？

构建 AI 管道有许多阶段，但让我们从成为数据科学家最不可或缺的部分开始：构建。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

在管道建设步骤中，主要分为三个阶段。

数据处理（清理和特征创建）
模型构建（创建模型）
报告（检查绩效）

在这三个类别中，重要的是要了解模型的敏感类别和属性以捕捉偏差。在这个项目示例中，我们通过以下三个阶段来看看如何防范这些因素。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

优惠券兑换项目

购买后，优惠券通常会发送到您的电子邮件或收件箱。对于这个项目，数据科学团队检查了数据以查看优惠券是否以有偏见的方式发送。

项目目的

预测客户是否会兑换优惠券。
确保每个年龄段都有相同的机会获得优惠券（基于型号）。

数据

客户特征
客户销售
优惠券属性
敏感属性（年龄组）
- 目标变量：优惠券兑换状态

数据清洗

在审查了初始数据后，团队进行了一些简单的清理和过滤以创建第一个模型。我们决定将重点放在召回率（真阳性数➗（真阳性数 + 假阴性数））作为识别偏差的主要指标。将项目流程划分为多个区域可以让您将项目组织成不同的部分。

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

然后，我们专注于检查混淆矩阵以减少假阴性的数量。基于亚群分析，我们检查了该模型在不同年龄组中的表现是否公平。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

探索可解释性

如果年龄组之间存在较大差异，则模型可能存在偏差。在此示例中，70 岁以上年龄组的低召回率最为明显。

为了进一步调查，数据科学家检查个人解释记录并冰法用于计算对极端概率影响最大的特征的可解释性。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

模型公平性评估

我们需要从数学和社会两个角度来评估模型的公平性。

数学公平：公平预测不依赖于敏感属性
社会公平：不同群体的公平模型表现一致，结果与预期意图一致

从这个角度来看，该团队使用 Dataiku 的模型权益报告来检查四个不同的关键指标：人口均等、均等赔率、机会均等和预测率均等。

人口均等衡量敏感组和有利组之间的阳性预测（阳性率）的比例。该指标不考虑正预测是真还是假，只考虑每组的正预测率。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

为了确保一个年龄组不被优先考虑，我们要确保每个年龄组的阳性率（分发的优惠券）相等。

均等赔率衡量所有组的真阳性率和假阳性率是否相等。它是对分类器正确预测阳性的能力和错误预测阳性的可能性的度量。比较这两个比率以查看它们在组间是否相等。在实际的业务应用程序中，这有助于确定营销部门是否会花费过多的钱向不使用优惠券的人发送优惠券。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

平等机会测量所有组的真阳性率（或可重复性）。这意味着该模型正确地将兑换优惠券的客户在各组中平均分类，让所有客户都有平等的机会获得优惠券（即该项目最重要的指标）。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

在最后，预测率平价测量所有组的精度。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

让我们从社会公平的角度来看。 Dataiku 的假设分析工具允许您在模型中的不同值之间切换，并轻松查看每个更改如何影响整个模型的预测。在这个例子中，我注意到当我操纵年龄组时，预测值立即发生了变化。听起来你有很多偏见。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

采取2：如何改进？

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

为了创建一个偏差较小的新模型，数据科学家回到了项目的起源，并试图从数据集中消除导致偏差的问题。这涉及从模态特征中删除年龄，但仍将其作为列包含在数据集中用于测量目的。现在是考虑仪表板的时候了。仪表板是一种向各种用户角色和最终用户呈现数据的可访问方式。

随即，团队注意到第一个模型在年龄组之间的表现存在明显差异，因此他们考虑了一个新模型。
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

我们发现第二个模型在所有年龄组中都更加一致并且更加公平。此外，误报率更接近。但是，我们仍然担心偏见，因此我们决定查看其他特征，例如信用卡类型、婚姻状况、租金状况和孩子数量。

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

在第二个模型中，我们发现一些特征与年龄直接相关，这可能导致了更大的观察差异。为了查看这些特征是否确实相互关联或独立，我们运行了 Dataiku 统计选项卡中的卡方检验。

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

在这个测试中，当检查年龄组和信用卡类型时，他们似乎能够直观地发现一种令人信服的关系。因此，决定也删除此功能。进一步的测试表明，出于同样的原因，第三个模型中也删除了家庭规模和收入规模。

第三诚实：具有较少偏见的最终模型

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

在该项目的第三轮模型开发中，数据科学家能够确认每个年龄组的误报越来越小。该模型并不完美，但多亏了 Dataiku 的工具，它允许我们识别应该丢弃哪些特征，从而减少了偏见。

这不是结束

Dataiku 能做的不仅限于上述模型开发的改进迭代。您还可以使用指标、检查和方案随时间跟踪模型的性能。

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

指标和检查齐头并进，允许您检查数据集并跟踪模型随时间的演变。场景功能允许您安排与模型指标和检查相关的作业。通过无缝集成到流程中的检测工具，您可以设置警报以自动发现偏差。

对于优惠券兑换项目，数据科学家创建了自定义 python 指标和确认，当指定值超过某个阈值时会出现。

AIを安全に拡張するためには - データサイエンティストが果たす役割とは

大规模管理人工智能和关键要点

它为什么如此重要？减少偏见非常重要，不仅因为更明显的原因（摆脱糟糕的 AI 标题），还因为更微妙的原因，例如在快速发展的技术空间中 AI 应用程序的长期健康。

人工智能系统面临更大风险理解是每个行业中每个组织的 AI 领导者的首要任务。组织应解决的三个相互关联的概念是：

人工智能治理（风险与控制）
MLOps（项目生命周期管理）
负责任的人工智能（透明度和公平性）

然而，我们不能仅仅停留在数据阅读器上。如上例所示，数据科学家必须将透明报告和模型公平性最佳实践纳入模型构建过程，并随着 AI 的扩展在这三个因素中发挥作用。.数据科学团队还应与 AI 治理团队合作，在整个 AI 管道中与项目目标保持一致。

图>
AIを安全に拡張するためには - データサイエンティストが果たす役割とは

数据科学家不仅仅是组织范围内扩大人工智能使用计划的可选参与者。他们对减少对更公平模型的偏见的贡献是负责任的人工智能，MLOps,人工智能治理是一个核心方面但是为了识别偏见并在构建无偏见的模型中发挥作用，数据科学团队需要合适的工具供他们使用（或者至少，它有很大帮助）。这就是为什么 Dataiku 为识别和理解偏见提供的支持是一个巨大的游戏规则改变者。

Dataiku 负责任的人工智能

更多Dataiku数据科学家关于Dataiku优惠券兑换项目的信息，Dataiku 产品日会议请看。

原来的：安全扩展人工智能——数据科学家扮演什么角色？

原创声明：本文系作者授权爱码网发表，未经许可，不得转载;

原文地址：https://www.likecs.com/show-308622641.html