数据集处理步骤
- 查看该数据集对应的描述(摘要,详细描述,变量信息)
- 下载并用
Excel等工具查看数据集(变量名,数量),根据目的看是否需要变量清洗 - 查看数据集对应的论文
SCADI.csv
摘要:
基于 ICF-CY 的第一个自我护理活动数据集
ICF-CY - 国际功能,残疾和健康分类(青少年版)
数据集描述:
该数据集来自 70 例身体残疾和运动残疾儿童病例,包含 206 条属性(依据 ICF-CY)
特别的,到今天为止 SCADI 数据集是唯一的一个 ML 研究人员使用的 《基于 ICF CY 自我护理问题分类》。
“类”领域是指存在身体和运动残疾儿童的自我保健问题,这些课程由职业治疗师决定。
最近从数据集中删除了儿童的姓名和社会安全号码。
两个文件已经被处理, SCADI.arff 和 SCADI.CSV 分别用于 WEKA 和 MATLAB,或者类似的工具。
属性信息:
1:性别:性别(1=男性,0=女性)
2:年龄:年龄
3-205:基于 ICF-CY 的自我护理活动(1=病例具有此特征;0 = 其他)
206:
分类(
分类1 = 关心身体部位问题;
分类2 = 如厕问题;
分类3 = 穿衣问题;
分类4 = 独立洗澡、自我护理和穿衣问题;
分类5 = 独立洗澡,自我护理,如厕和穿衣问题;
分类6 = 吃,喝,独立洗澡,自我护理,洗脸,梳妆,照顾他人,保护他人;
分类7 = 没有问题)
注意:
如数据集下载完毕后为 SCADI-Dataset.txt , 重命名修改为 SCADI-Dataset.rar
即可正常打开。
SGEMM GPU kernel performance
摘要
运行时间为 两个 2048 x 2048 的矩阵相乘,使用 GPU OpenCL SGEMM 内核不同参数,使用库为 CLTune
CLTune ( A Generic Auto-Tuner for OpenCL Kernels ):一种通用的OpenCL内核自动调谐器
数据集描述:
该数据集测量矩阵矩阵乘积 A*B=C 的运行时间,
其中所有矩阵具有 2048×2048 的大小,使用具有 241600 个可能参数组合的可参数化的 SGEMM GPU 内核。
对于每个测试组合,执行 4 次运行,并将其结果报告为 4 个最后列。
所有时间都以 ms 为单位测量。
有 14 个参数,前 10 个是序数的,只能取 4 个不同的两个值的幂,而 4 个最后的变量是二进制的。在 1327104 个总参数组合中,只有 241600 个是可行的(由于各种内核约束)。该数据集包含所有这些可行组合的结果。
该实验运行在一台运行 Ubuntu 16.04 Linux 的桌面工作站上,英特尔内核 I5(3.5GHz)、16GB RAM 和 Nvidia GeFig GTX 680 4GB GF580GTX-1.5 GB GPU。我们使用来自自动 OpenCL 内核优化库 'CalTun' 的“GEMMYFAST”内核。
属性信息:
独立变量:
1-2. MWG,NWG:每个矩阵 2D 在工作组级别的瓦片:{ 16, 32, 64,128 }(整数)
3 . KWG:工作组级别 2D 瓦片的内部维度:{ 16, 32 }(整数)
4-5. MDIMC,NDIMC:本地工作组大小:{ 8, 16, 32 }(整数)
6-7. MDEMA,NDIMB:局部内存形状:{ 8, 16, 32 }(整数)
8 . KWI:内核循环展开因子:{ 2, 8 }(整数)
9-10. VWM,VWN:每个矩阵向量宽度的加载和存储:{ 1, 2, 4,8 }(整数)
11-12. STRM,STRN:允许访问片外存储器:单线程:{ 0, 1 }(分类)
13-14.SA,SB:每 2D 工作组瓦片的矩阵手动缓存:{ 0, 1 }(分类)
输出:
15-18. Run1,Run2,Run3,Run4:使用相同参数的4个独立运行的毫秒执行时间:它们介于 13.25 和 3397.08 之间。
Student Performance
摘要
预测学生在中等教育(高中)的表现。
数据集描述:
这一数据接近两个葡萄牙语学校中学教育的学生成绩。
数据属性包括 学生成绩,人口统计学,社会和学校相关的特点,它是通过使用学校报告和问卷收集。
提供两个数据集的性能在两个不同的科目:数学(MAT)和葡萄牙语(POR)。在[科尔特斯和席尔瓦,2008 ]中,在 二进制/五级 分类和回归任务下对两个数据集进行建模。
重要注意事项:目标属性 G3 与属性 G2 和 G1 具有很强的相关性。这是因为 G3 是最后一年级(在第三期发布),而 G1 和 G2 对应于 第一和第二周期 等级。没有 G2 和 G1 预测 G3 更困难,但是这样的预测更有用。
属性信息:
学生 MAT.CSV(数学课程)和学生 PAR.CSV(葡萄牙语课程)数据集的属性:
1 学生的学校(二进制:“GP”- Gabriel Pereira 或 “MS”- Mousinho da Silveira)
2 学生的性别(二进制:“F”-女性 或 “M”-男性)
3 学生年龄(数字:15 至 22)
4学生的家庭地址类型(二进制:“U”-城市 或 “R”-农村)
5 家庭大小(二进制:’LE3‘-小于或等于 3 或 ‘GT3’- 大于3)
6 父母状态-父母是否同居(二进制:‘T’-同居 或 ‘A’-分开’)
7 母亲教育(数字:0 -无,1-小学教育(四年级),2-第五至第九年级,3-中等教育或 4 -“高等教育”)
8 父亲教育(数字:0 -无,1-小学教育(四年级),2-第五至第九年级,3-中等教育或 4 -“高等教育”)
9 妈妈的工作(名义上:“老师”,“健康护理”,“民事服务”(如行政或警察),“全职妈妈”或“其他”)
10 父亲的工作(名义上:“老师”,“健康护理”,“民事服务”(如行政或警察),“全职妈妈”或“其他”)
11 选择这所学校的理由(名义上:“离家近”,“学校声誉好”,“课程偏爱”或“其他”)
12 学生监护人(标称:‘母亲’、‘父亲’或‘他人’)
13 从家到学校的时间(数字:1 - 15 分钟,2 - 15 至 30 分钟,3 - 30 分钟至 1 小时,或 4 - 1小时)
14 每周学习时间(数字:1 - 2小时,2 - 2至5小时,3 - 5至10小时,或4 -10小时)
15 过去班级失败的数目(数值:n,1<n<=3,否则为4)
16 额外教育支持(二进制:是或否)
17 家庭教育支持(二进制:是或否)
18 课程科目(数学或葡萄牙语)的额外付费课程(二进制:是或否)
19 课外活动(二进制:是或否)
20 托儿所(二进制:是或否)
21 想接受高等教育(二进制:是或否)
22 家庭互联网接入(二进制:是或否)
23 早恋(二进制:是或否)
24 家庭关系的质量(数字:从 1 到 非常低 到 5 非常高)
25 课余自由时间(数字:从 1 到 非常低 到 5 非常高)
26 与朋友外出(数字:从 1 到 非常低 到 5 非常高)
27 工作日饮酒量(数字:从 1 到 非常低 到 5 非常高)
28 周末饮酒量(数字:从 1 到 非常低 到 5 非常高)
29 当前健康状况(数字:从 1 到 非常低 到 5 非常高)
30 学校缺席人数(数字:0 至 93)
这些成绩与课程科目、数学或葡萄牙语有关:
31 G1 -第一期成绩(数字:0 至 20)
31 G2 -第二期成绩(数字:0 至 20)
32 G3-最终成绩(数字:0 到 20,输出目标)