Detecting and preventing “multiple-account” cheating in massive open online courses

note：

结合学习通？雨课堂？学习强国？

值得深挖：

文章目录

Abstract

我们讨论了一种作弊策略（CAMEO），这种策略与大规模开放在线课程的特征有关，并且可以通过网上在线课程所提供的数据系统被监测。
该作弊策略涉及到两个用户，一个使用“采集器”账户，收集问题答案，然后使用完全独立的“主账户”来提交正确答案。
我们设计了一个小实验来验证 CAMEO，并估计了它在来自两所大学的 115 MOOCs 中的 1.9M 参与者中的流行程度的下限。
我的结论是：保守估计下，在 69 门 MOOCs 所发放的 1237 份合格证书中，估计有 1.3% 的合格证书可能存在作弊问题（CAMEO）。在获得 20 份甚至更多合格证书的人中，1/4 的人存在作弊现象。
CAMEO 用户比其它 MOOC 用户更有可能是年轻化的、男性化的和国际化的。
我们确定了一种可以降低 CAMEO 发生率的策略，并且在科学课程中证明了它的有效性。

1. Introduction and motivation

第一段:

Massive Open Online Courses(MOOCs) 于 2012 年开始收到媒体的大量报道，与此同时，诸多大学均提供免费课程。
这些 MOOCs 与 MIT 早期推出的开放式课件不同，这些 MOOCs 不仅提供免费内容，还提供类似传统课程的环节，比如注册、互动参与、定期评估、在线讨论论坛、交互式模拟，以及与我们目的最相关的成功认证环节。
关于 MOOC 为何传播如此广泛的一个理论认为，免费的大学课程水平认证可以通过低成本的在线认证取代高成本的传统课程来提高高等教育的效率。

本文研究重点在于 MOOC 的课程认证问题。

第二段：

在本文中，我们发现了一种作弊方法，这种方法在我们的 115 MOOCs 样本中均有检测到，并且这种作弊方法对这些课程的课程认证证书的可信度造成了影响。
这种作弊方法我们称为 Copying Answers using Multiple Existences Online(CAMEO)。
采用了这种作弊方法的用户称为 CAMEO user，他们通过创建两个账户来实现作弊行为，一个账户（采集器账户）通过猜测答案的方式来获得正确答案，实际上是通过“显示答案”按钮的方式来获得老师提供的解决方案，以及另一个账户（主账户），用于提交正确答案，并获得证书。

CAMEO user 通过开小号的方式来获得答案，最终通过考试。

第三段：

CAMEO 方式与其它复制技术有联系有区别。我们需要区分它们：1. 复制什么。2.为什么复制。3.如何复制。4.如何检测复制。
CAMEO 方式与其它在线课程出现的协作方式相比较，二者环境相似，二者的检测都包含分析多个账户的交互。
之前的研究的重点在于用户所处的不同社区如何影响学习结果，与 CAMEO 行为相反，在 CAMEO 中，一个用户利用多个账户，有可能完全绕过学习过程。
CAMEO 类似于网络游戏中的多账户分享方式，但个用户可以通过创建多个账户并进行战略性互动来提高分数。
然而，CAMEO 在被复制的内容（正确答案），以及复制的原因（加快认证）与网络游戏中所采用的多账户分享方式还是有所不同。
这些差异的特异性使得能够被针对性地检测、量化和预防在 MOOC 中的使用。

CAMEO 与其他复制答案方式区别：a. 复制什么 b.如何复制 c.为什么复制 d.如何检测复制。

CAMEO 的差异性可能会成为检测这种行为的突破口。

第四段：

CAMEO cheating 与线上线下的常规课程上的抄袭在目的上有相似之处。然而，CAMEO 的三个特点使得其称为在线教育中一种独特的作弊方式。
1. internally sufficient（相对封闭）。虽然大多数用户从其他学生或外部资源中复制答案，但是 CAMEO 用户使用多个自己的账户进行复制，消除了对外的依赖，使得该作弊方式可用性颇高。
2. 完成课程认证环节以及速度不同。在正常 MOOCs 学生（Asynchronous MOOCs）中，学生可以按照自己的进度访问课程材料和参与认证，CAMEO 用户则可以一次性完成整个课程的认证过程。
3. 门槛低。传统教育至少可以宣传自己的学生已经经过了筛选，而 MOOCs 却是在一个非选择性的，开放性的环境中。
因为 MOOC 用户不同于在校学生，不是通过任何基于成绩的过程或标准选择的。在这些 MOOC 使用 CAMEO 方式，会使得他们所获得的该课程的认证证书变得毫无价值。

第五段：

本文的主要内容是一个基于 CAMEO 的作弊检测算法。它使用一个小规模的实验和一个保守值来确认 CAMEO 行为。
还做了一个实验，内容与“蜜罐”作弊（直接复制答案）检测有关系。
以上所做的工作，参考了大量的文献，这些文献通过调查来估计作弊的普遍程度，其中的答案可能会受到 social desirability，interpretation of item prompts，concerns about anonymity，and inflation in self-reported performance。
本文研究了一种特定的作弊方式，该方式使用了针对大数据集定制的算法，该数据集包含用户与在线课程内容的详细交互，包括活动时间戳（CAMEO？）。
有 115 门课程，这也是我们所知的最大的在线课程作弊情况分析。

第六段：

CAMEO 支持新的作弊策略和新的检测策略。
虽然 CAMEO 在技术上是一种复制策略，但我们认为它仍然构成了“欺骗”。
至少，使用 CAMEO 是违反规定的，因为 MOOC 禁止创建多个账户。
CAMEO 方式对 MOOC 认证的含金量造成了影响，MOOC 证书的意义是”成功完成“，包括证明学生对课程内容的熟练程度。
然而，CAMEO 方式的流行证明 MOOC 证书的意义不复存在，用户只是从一个”虚拟的“采集器账户中复制答案。
MOOC 之所以持久，是因为 MOOC 认证的含金量以及有用性。
CAMEO 会影响 MOOC 在普通用户中的受欢迎程度。

2. Methodology

第一段：

我们首先描述了一个 CAMEO 检测算法，该算法依赖于特定用户对特定用户动作的时间差异分布。
CAMEO 检测算法由五个具有高度保守截止值的过滤器组成，旨在减少误报，包括时间戳差异分布的贝叶斯标准。
我们设计了一个实验，我们的算法如期检测到了 CAMEO 行为。

2.1 Indicators of CAMEO

第一段：

Fig 1 显示了两个典型的 CAMEO 用户，每个用户都有两个账户，以及他们在考试时的系统交互时间表，考虑下面这个变量：

Detecting and preventing “multiple-account” cheating in massive open online courses

第二段：

这是主账户 m 提交正确答案的时间和采集器账户 h 获得正确答案时间之间的差异，对于一个共同的问题 i，相同的 MOOC 课程 c。
m 与 h 是多对多的关系。

第三段:

对于 CAMEO 用户来讲，Δt_m,h,c,i > 0。
t_m,c,i 记录在服务器日志文件中。
t_h,c,i，我们假设 MOOCs 的教师允许用户在提交答案后，能够单击显示答案的选项，以便用户获得快速反馈。显示答案按钮的时间戳定义了 t_m,c,i。
我们介绍了一种基于观察 t_m,c,i分布，来对 CAMEO 用户进行概率检测的方法。

Detecting and preventing “multiple-account” cheating in massive open online courses

Fig 1

2.2 Detection of CAMEO

第一段：

检测策略的对象是所有可能的账户，将其视作候选的 CAMEO 用户。
检测来自一个 CH 的 “显示答案” 和另一个 CM 提交“正确答案” 的行为是否足够有序和一致，依次来判断 CH-CM 是 CAMEO 用户。
使用了 5 个过滤器来识别 CAMEO 用户。
5 个过滤器顺序无关。

Detecting and preventing “multiple-account” cheating in massive open online courses

第二段：

前 2 个过滤器检测了 CH 相当快地向 CM 提供正确答案的行为。t_m,h,c分布小幅正。
Fig2.A，显示了两个不相关的异步账户，其中一个用户的“显示答案”事件有时在另一个用户的正确答案提交之前，有时在另一用户的正确答案提交之后，时间大小相差很大。这种分布应该很常见。
Fig2.B，显示了两个用户（例如兄弟姐妹、室友或并排参加评估的学生）紧密同步的工作。由于机会和步调的差异，一个用户的“显示答案”有时会在另一个用户的“正确答案”之前，但有时会在后面，但时间会非常接近。
Fig2.C，CAMEO 行为。对应于 Fig1，所有t_m,h,c均为正数，且数值非常小，这个例子中大约有 10 秒钟。
Fig2.D，t_m,h,c均为正数，且数值很大。这与有序重合是一致的，在有序重合中，由于不同的注册日期或一天中的时间偏好，不相关的用户对将相互抵消。

第三段：

通过t_m,h,c来区分 CAMEO 用户，我们通过参数假设（例如，对数正态，指数）来约束t_m,h,c 或 |t_m,h,c|，但是许多观察到的分布由于 t_m,h,c,i 值的偏离而具有极大的偏差。因此，我们选择了一种参数较少的方法，目标是正值观察值的百分比（Filter 1）和 90% 的百分比的 Filter 2。

2.2.1 Filter 1 and Bayesian criterion

第一段：

接受 CH 和 CM 之间共享的数据的变化，当数据有限时，我们使用更严格的贝叶斯标准。
我们估计比例Π的后验分布的参数，我们关心正的t_m,h,c值的比例，给定 n，作为一个 CH 有一个“显示答案”，一个 CM 有一个提交正确答案，x 作为 CH 时间先于 CM 时间的次数。

Detecting and preventing “multiple-account” cheating in massive open online courses

第二段：

I 是指标函数，当自变量为真时为 1，否则为 0。
任何 CH~CM 对应的最大 n 是样本数量。
各门课程的平均评分项目数为 141，这为推断提供了大量数据。
我们假设 x 是二项分布的，Π 是 β分布。

Detecting and preventing “multiple-account” cheating in massive open online courses

第三段：

我们观察数据中的 x 和 n。对于先验分布，我们根据经验和判断设置了 α=β=0.5，当我们数据中的 n 很大时，使用观察到的 p=x/n 的全分布。这是一个平缓的 U 型，这与 t_m,c的许多分布在随机或完全偏离t_h,c的其它分布的事实相一致，这是由于 MOOCs 的异步特性导致的。

第四段：

我们根据 p 接近 1 的置信度来操作过滤器 1，也就是说，CH 总是先于 CM，过滤器 1 选择 90% 概率为 Π_m,h,c>0.9 的 CH-CM。这是一个保守、严格的标准，需要大量数据才能得出分布主要为正的结论。

Detecting and preventing “multiple-account” cheating in massive open online courses

Fig 2 显示了四种不同分布的 CH-CM 对不同的 t ~m,h,c~

2.2.2 Filter 2 and setting the cutoff threshold

第一段：

Filter 2 排除了 A、B 两种情况，但是它不能区分 C、D。
为了排除在时间上恰好向正方向偏移的有序账户，Filter 2 使用 t_m,h,c 分布的 90% 作为标准，将保守截止值设置为 5min。
换句话说，90%的 t_m,h,c值必须小于 5min，Fig3，这种截止发生在一个“弯头”处，在0到5分钟之间移动截止值会显著改变估计的 CAMEO 数量，而超过 5 min 的后续移动不会。

Detecting and preventing “multiple-account” cheating in massive open online courses

2.2.3 Filter3：certified CM——uncertified CH pairs

第一段：

前两个过滤器提供了相当多的证据，对于 CAMEO 用户，t_m,h,c的分布不成比例，并且集中在不到 5 min 时间内。
过滤器3-5，提供收敛标准，以进一步最小化错误识别的概率。
Filter 3 考虑 CH-CM对，CH 是未经过认证的，CM 是经过认证的。
这可能会忽略没有获得 CAMEO 认证的用户，但是我们的目的是尽可能直接地捍卫 MOOC 证书的有效性，因此，我们只包括认证的 CM。
此外，获得证书的 CH 不符合 CAMEO 用户群体，这说明它可能实际凭借真才实学通过了该课程。

2.2.4 Filter 4 and detecting shared IP address(检测共享的 IP 地址)

第一段：

Filter 4 进一步缩小了范围，将共享一个 IP 地址的 CH-CM 找了出来，该 IP 地址被定义为给课程中所有的交互的模式（最常用的）IP地址。
然而，仅考虑具有相同 IP 地址的用户不能检测到使用 CAMEO 策略的用户，该策略在给定课程中被分配给了不同模式 IP 地址的账户，无论是巧合还是有意的误导。
为了提高对这些用户的检测，我们将“共享一个 IP 地址”的定义扩展到在其课程历史中共享过一个 IP 地址的 CH-CM。

第二段：

为了检测在给定课程中具有不同模式 IP 地址账户的 CAMEO 用户，我们分析了 115 个课程中的所有账户的（name, IP）。
（name, IP）定义为一个 “IP group”，一开始我们为每个 IP 对分配一个唯一的整数，接下来，我们按 modal IP address 分组，使得共享相同模态 IP 地址的所有（name，IP）被分配（合并）到相同的 IP 组中。
然后，我们按用户名分组，使得共享相同用户名的所有（name， IP）被合并到相同的 IP 组中。我们重复“按 IP 合并” 和 “按用户名合并“步骤，直到 IP 组不再改变。
这可以描述为跨课程的所有账户的模态 IP 地址和账户名的”传递闭包“。
它允许我们在两个账户在一个课程内、跨课程或课程共享同一模式 IP 地址的其他账户共享同一模式 IP 地址时，考虑 CM-CH 对。

2.2.5 Filter 5：excluding shared routers（排除共享路由器）

Filter 5 不包括属于具有 10 个或更多共享一个模式 IP 地址的账户的组的所有 CH-CM 对。
我们将教室或咖啡馆中可能增加误报可能性的共享路由器排除在外。

2.3 CAMEO 的核实确认

第一段：

我们在一个单独的小课程中对注册者进行了小规模的、有针对性地调查，已确认 CAMEO 确实可行。
通过对一段时间内使用模式的描述性分析，确定了 3 对用户，包括 3 个候选主账户和 3 个候选采集器账户，他们的评估提交似乎异常同步。
对于这三个用户对，我们修改了7个测试问题的答案，为每个用户显示的答案添加了唯一的随机字符串。该字符串采用了多余符号（如括号）、正确答案末尾可忽略的小数点或计算结果为 1 的表达式。
例如，”粒子的最终动量是多少?“可能是 3.13，但对于一个用户，答案显示为 ”3.13556“，而对于另一个用户，答案显示为 “3.13417”。
处于后勤和教学的原因，仅限于这三对用户。

第二段:

这三对中有一对从未看过相关内容，对于剩下的两个主账户，我们检测到至少有一个是直接复制答案的。
这证实了 CAMEO 行为，因为额外数字和符号的独特组合没有理由被提交，也不可能是偶然发生的。
对于小规模验证，在 3 对用户中，CAMEO 检测算法仅识别出与 CAMEO 用户完全相同的两个主账户。

3. Results

我们调查了哈佛大学和麻省理工学院在 MOOC 平台——edx上提供的 115 门在线课程中 CAMEO 行为的普遍程度。
我们使用从 2012 年秋季到 2015 年春季的课程数据，截止分析日期为 2015年6月2日。
其它文献描述了其中大约一半的 MOOCs，强调了它们的课程重点范围和不同的参与者人口统计数据。
我们的样本包括 1893092 个注册（1067570来自唯一账户），其用户至少点过一次课程内容。共有 155301 份证书发放给 103370 个账户。

3.1 CAMEO 行为的普遍程度

在这些课程中，我们估计总共有 1237 个证书是通过使用 CAMEO 方式获得的，在所有 115 个课程中，有 1% 是由 657 个使用 674 个采集器账户的独特用户获得的，在一些课程中，CAMEO 用户占到了所获证书的 5%。
在我们确定的 69 门课程中，CAMEO 用户占证书的 1.3%，表 2A 显示，CAMEO 用户更有可能是年轻、男性、受教育程度较低、国际化程度较高，而不是相同课程中的其它学生。
在至少 20 个 CAMEO 用户的国家中，每个证书的 CAMEO 计数最高的国家是阿尔巴尼亚、印度尼西亚、塞尔维亚、哥伦比亚和中国，美国的 CAMEO 率特别低，只占了 0.4%。
表 2B 显示了按广泛的课程领域的 CAMEO 率：在政府、卫生和社会科学类中最高（1.3%），在计算机科学类中最低（0.1%）。

3.2 CAMEO 的预防

逻辑上阻止 CAMEO 使用的机制包括限制”显示答案“选项，直到作业到期、每人都有不同的题目。
在本样本的 37 门科学、技术、工程和数学课程中，有 18 门采用了这种预防机制。
表2 C 显示，在半数或半数以上的评估项目中采用这些预防策略的课程中，采用了预防策略的课程中，CAMEO 的比率明显低于未采用预防策略的课程中的比例。

Detecting and preventing “multiple-account” cheating in massive open online courses

4. Discussion

第一段：

随着开放在线课程的激增，我们认为CAMEO是对大规模认证有效性的重大威胁。我们的主要目标是证明CAMEO的存在，并限制其在人群中的流行。我们相信我们的方法可以做到这一点，并且是保守的。
尽管如此，我们在这里提出了这项工作的一个主要缺点，并在鼓励后续研究的同时简要地讨论了它。像现实环境中的许多作弊分析一样，我们没有作弊的“真实”知识来评估我们的检测方法在个人层面上是否准确。也许一个孩子正在胡乱猜测并点击“显示答案”，而与此同时，一位家长单独提交正确的答案，总是在孩子之后几分钟。这不太可能，但也不是不可能。
然而，我们的目的不是识别个体，而是估计总患病率。我们相信我们的过滤器，结合提供存在证据的小规模实验，可以实现这一点。

第二段：

第一，用户名的文本匹配揭示了候选对中相当大的重叠，curtis1/curtis2。
第二，虽然我们的CAMEO检测算法独立地对待每一个CM-CH对，但是我们发现CAMEO行为是聚集在用户内部的。共有43个独立账户通过CAMEO获得了5份或更多证书。
第三，我们进行了一个有限的分析，在一个过程中，通过在用户之间复制开放响应文本来剽窃，我们发现这些帐户也被识别为CAMEO用户。
虽然我们相信我们的算法本身就足以证明CAMEO的存在和流行，但我们鼓励进一步的研究来支持检测算法的验证。

第三段：

另一个问题是，一些用户可能使用 CAMEO 以实现能在正式考试前多次模拟，以提高学习成绩。We argue that this is unlikely given how we operationalize our definition.
CAMEO 用户会在提交正确答案之前的几秒钟，用另一个账号来点击”显示答案“按钮，查看答案。这种系统性行为的程度和时机与愤世嫉俗和明目张胆地试图获取正确答案以快速获得认证最一致，而不是与学习策略一致。

第四段:

最后，虽然仅在 MOOC 上对某些课程 CAMEO 行为进行了分析，但是作为一种通用的多账户复制策略，CAMEO 在任何具有开放注册策略的MOOC中都是可能的。
有些课程由于并没有使用显示答案功能，实际上的 CAMEO 率可能比我们统计的还要高，我们的算法必须根据这些课程的特定环境进行调整。
例如，在一项针对单一课程的独立研究中，9.8%的证书获得者被确定至少获得了一个答案。

第五段：

我们可以通过观察我们的数据来建立一个比较的基础，即那些在多个课程中获得认证的人更有可能至少使用过一次CAMEO策略，包括25%的那些已经获得至少20个证书的人，如表3所示。
我们认为这与报告中所说的三分之二的大学生在过去一年中有某种形式的学术不诚实是相称的，特别是考虑到我们分析中的最低门槛是足够作弊来获得认证，而不是仅仅在一个或几个问题上不诚实。

Detecting and preventing “multiple-account” cheating in massive open online courses

第六段：

我们的发现与其他观察结果一直，即 MOOC 评估很少涉及关于学习结果的真正评价。
所有组织 CAMEO 策略的可行机制都有一个缺点，如果教师在问题评分后才给出”显示答案“选项，这会和 MOOC 的快速反馈理念不相符合，可能不会得到学生的欢迎。
评估项目和正确答案的算法生成具有挑战性，仅适用于某些科目和评估任务。

第七段：

Beyond honor codes。该解决方案被 MOOC 供应商所接受，例如在安全测试中心收费进行的面对面评估。
我们注意到，与收费的面对面测试中心相关的成本和限制与定义MOOCs的开放、在线原则及其改善全球学习和认证机会的使命是对立的。

5. Conclusion

第一段：

CAMEO 有三种策略：
1. time difference analysis.
2. Bayesian criteria allow appropriately conservative classification when data are limited.
3. transitive closure.
除了用于作弊检测外，还能有助于识别在线用户之间的协作和交互。

第二段:

人们很期望通过 MOOC 来提高高等教育的效率和促进创新方面的潜力。
CAMEO 的四个特性严重削弱了这种潜力：
1. 除非被阻止，否则学生可以在任何一个领域均获得课程认证。
2. 非常方便，不需要额外的交互。
3. 不受限制，在非选择性的，开放的环境中使用。
4. CAMEO 行为和普遍针对个人评估不同，它能够影响整个课程。

第三段：

我们通过这篇文章，证明了 CAMEO 行为确实存在，并且我们认为确实对 MOOC 课程认证的含金量造成了影响。
需要对这种行为进行预防，我们也证明了我们的预防策略是有希望的。
然而，CAMEO 只是众多可能的作弊行为中的一种，复杂的检测算法应该是保护在线课程认证含金量有效性的一般方法的一部分。
我们建议并期待未来的干预措施，以增加和鼓励在线学习环境中的诚实行为，同时禁止和阻止一切形式的作弊。