DropoutSeer: Visualizing learning patterns in Massive Open Online Courses for dropout reasoning and prediction
辍学者:可视化大规模在线开放课程的学习模式,用于辍学推理和预测
摘要
用户难以理解辍学率预测结果,并且进一步制定合理的干预措施来预防辍学。
本文提出一个可视分析系统DropoutSeer不仅可以帮助教师、教育专家理解辍学行为,而且可以识别提高模型性能的关键特征。
3种异构数据(3种学习行为日志信息):点击流、论坛帖子、作业记录
案例分析和专家访问证明系统的有用性和有效性
1、引言
预测模型的优势:
- 能够计算不同学习者的辍学概率,识别辍学的关键因素
- 辍学预测有助于理解和分类不同在线学习的动机和行为——学习动机和学习行为的关联关系
问题/挑战: - MOOC数据规模大、异构、具有时序信息
- 辍学的原因多种多样,高度个性化
效果: - 教师可以更好的设计MOOC课程
- 机器学习研究者可以更好的构建预测模型
特征构思(feature ideation)是建立高精度模型的关键步骤
需要直观地可视化设计
需要把学生进行分组,帮助发现常规和异常模式、识别典型的学习群体和异常点
系统包括4个视图:
- 聚类视图——展示聚类学习小组
- 时序视图——展示点击流行为和作业表现
- 流图——连接时序图和论坛发帖情况
- 仪表盘列表——概览整体信息
设计了一个新颖的视图用于时序模式检测和不同视图的平滑转换
文章贡献:
- 一个可视分析系统,集成4个视图允许分析人员从不同的层次识别与辍学行为相关的学习模式
- 一种新颖的时序数据可视化设计方案,揭示学习者详细的学习行为
- 真实数据的案例分析和领域专家访问证明系统可以帮助教师和机器学习研究者分析辍学行为的原因
2、相关工作
-
辍学预测
辍学预测属于二分类问题。
预测使用的特征:
常用:学习行为日志——视频、论坛、课程wiki
将行为日志按照不同的时间区间进行划分,并且使用统计特征表示
将学生行为当作序列数据处理,使用有向图表示序列结构,基于不同典型的短事件序列提取特征向量
基于提取的特征向量,使用LR、SVM、DT等机器学习方法进行预测
不足:模型适用于预测同一门课程,在不同课程之间的效果存在差异 -
MOOC可视化
不同学习群体和状态之间的转换关系
交互方式:排序、放大、聚类、过滤 -
时序可视化
3、问题特征
包含3个模块:
a) 数据管理:数据清洗和预处理、数据存储
b) 数据模型:预测模型、聚类和分类方法,辅助模式发现
c) 可视化模块
- 数据抽象
数据源:视频点击流、论坛讨论、作业成绩
点击流——播放、暂停、拖拽、停止、跳转、出错play, pause, seek, stalled, ratechange and error
涵盖不活跃的学习者
稀疏的帖子
辍学定义的不确定性
-
分析任务
T1:辍学的整体分布情况——识别典型的辍学学习分组
T2:影响辍学的关键因素
T3:不同学习分组的学习模式——循序渐近型、突击型
T4:论坛帖子与学习分组的关系
T5:单个学习者的学习模式 -
预测模型
辍学率预测问题:
a. 辍学定义:学习者在一周中无任何的学习记录
b. 对于第一周,可以预测课程结束后是否还有学习者
c. 预测在上次预测后一周内是否还有学习者
(wb,wd)——Wb用于预测的行为数据,wd预测仍然留在课堂的学习者
预测模型:
整个课程的学习行为和不同周的辍学状态
预测可能辍学的概率
- 逻辑回归LR模型
- 随机森林RF模型
- K近邻KNN模型
4、可视化设计
- 设计准则
G1:对于不同背景的用户,可视化设计应该尽可能容易理解
G2:系统应该提供多个层级来展示不同粒度的信息
G3:权衡用户干预程度和自动聚类算法之间的关系
G4:提供用户熟悉的交互方式和及时反馈 - 聚类方法
为每个学习者计算一个特征向量,执行降维方法,基于密度的聚类算法
具体实现:
步骤1:为每个学习者构建特征向量
步骤2:使用MDS将特征向量降至2维,使用余弦距离计算特征向量间的相似性
步骤3:使用DBSCAN聚类算法对学习者进行聚类,距离使用欧式距离方法计算
3. 可视编码
a) 聚类视图
展示学习分组的聚类结果
分为4类:active-predicted, active-missed, dropped-predicted, dropped-missed
一个点编码一个学习者
b) 时序视图
探索不同因素对不同分组和不同学习时序模式的的影响
垂直轴编码不同的分组,水平轴编码时序信息
每行代表一个学习分组的学习者在整个课程期间的行为,每行最右侧的柱形图编码该分组的学习者总人数,一个图标编码一周的平均点击流和作业记录
Glyph设计:展示每周的学习模式
图c:
圆环最外圈半径的大小编码观看视频的平均人数;内圈半径编码标准差——活跃用户越多,对于分析越重要。内圈越小,外圈越大,包含的活跃用户越多。圆环的面积可以用来代表分组的置信度。
圆环外的圆弧展示每周作业成绩的平均百分比和标准差。完整圆环为满分。圆点表示平均百分比,两个短线表示标准差。
圆环中不同颜色面积区域编码不同的点击行为的占比。
水平线编码时间,每一列对应一周。
缺陷:不利于进行对比
其他可选设计如图b或者下图,矩形框的背景色编码置信度,简单的箱线图展示作业成绩的分布情况。
单个学习者采样相同的视图,只是去掉了平均值这一属性。
c) 流图
允许用户将论坛行为和分组信息进行结合分析
右侧垂直的时间线与课程时间一致,堆叠柱状图编码来自不同组学习者每天发帖的情况
论坛发帖可以分为三类:问题、讨论和其他,使用不同的颜色编码
基于课程教学大纲提取每种类型的种子单词,然后使用SeededLDA识别论坛的主题
使用贝塞尔曲线和控制点绘制流图,不同分组的流可以绑定到一个起点
选择一个学习分组对应的流将高亮显示
4. 交互
过滤:右侧的仪表盘视图允许用户过滤属性,进行学习分组聚类;仪表盘中的线根据预测中的重要性进行排序。用户也可以自定义排序。
高亮
阐述/铺陈
重新配置:允许用户合并和切分学习分组,通过拖拽、双击实现
5、案例分析
Java课程:
NCH课程:
Java课程第五周辍学后,存在继续返回课堂的情况。原因:NCH课程在第五周之前将所有视频资料已经发布给学习者,因此后五周无学习记录。
NCH课程:a在第二周辍学后还有返回课堂继续学习的。
-
预测模型的特征重要性
实验发现,预测前一周作业完成度较高的学习者完全被正确预测为留在课堂的。以此可见,作业完成行为对预测结果非常重要。
-
学习分组预测学习者
与用户期望相反,在观看视频时出现较多跳转可能是对视频内容不感兴趣,但是大部分的学习者完成了整个课程的学习,并且获得较好的成绩。b和c相比,看视频时具有较多跳转行为的学习者有很大的可能性会将整个课程学完。 -
预测分布的长尾
用户发现一些属性(如重看、活跃天数和发帖数量)与跳转行为相似。当这些属性值较小时,用户很难区从辍学者中区分活跃学习者,但是当数值大于一个阈值时,可以很好发现活跃学习者。这一发现有助于调整预测模型。
6、与领域专家的访谈
系统整体可用性
可视化设计和交互
局限性和建议:
a) MOOC中的自步学习(self-paced learning)是潜在的趋势,但是本工作中设计的两门课程则是每周更新学习材料的。
b) 短期学习也是一个趋势,这将导致收集到的信息量不足,难以进行预测。
c) 系统是否可以提供实时的分析和预测。
d) 发现一些课堂和论坛发帖活跃的学习者最后成绩不好的学生,在学习中给予适当的帮助。
7、总结和未来工作
本文提出一个DropoutSeer可视分析系统,帮助用户分析在线学习行为和辍学之间的关联关系。
未来工作:
- 设计一个更加灵活的可视分析框架,解决课程结构和评估学习者的指标随着时间不断演变的问题——普适/通用性
- 设计具有针对性的可视化工具,帮助构建分类模型识别特定分类的学习者