中国大学慕课《数据挖掘与python实践》第三单元测验

1.运行以下代码

from sklearn.datasets import load_iris

iris_data = load_iris()

iris_data.data.shape

输出结果为(150, 4)。则表示iris数据集包括样本特征数为（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
2.在Numpy包中，计算中位数的函数为（）。

3.在Numpy包中，计算标准差的函数为（）。

4.运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制折线图，需要利用的函数为（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
5.运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制直方图，需要利用的函数为（）。

6.运行以下代码” import matplotlib.pyplot as plt”引入plt后，要绘制散点图，需要利用的函数为（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
7.使用最小-最大法进行数据规范化，需要映射的目标区间为[0,100]，原来的取值范围是[-10,10]。根据等比映射的原理，一个值8映射到新区间后的值是（）。

8.使用等距离分箱法进行数据离散化，数据范围为20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200，区间个数为4。下列属于4个箱的区间是（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
9.特征选择方法中，一般的启发式方法有（）。

10.在使用主成分分析法进行数据属性特征提取中，在对数据集进行中心化处理后，为了去除冗余和降低噪音，应将协方差矩阵非对角线上的元素化为（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
11.关联规则的挖掘算法只能处理（）类型的取值，为此（）是继续其知识发现过程的必要步骤。

12.下列不属于数据预处理原因的是（）。

13.下列关于数据规范化说法错误的是（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
14.缺失值处理方法中错误的是（）。

15.主成分分析的步骤是（）。

16.数据预处理的任务不包括（）。

17.使用python处理缺失值的方法中叙述错误的是（）。

18.最小最大规范化方法MinMaxScaler属于python中的哪个包（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
19.主成分分析方法PCA属于属于python中的哪个包（）。

20.最小-最大法中，假设需要映射到目标区间为[L,R ]，原来的取值范围为[l, r ]。一个值x映射到新区间后的值v的计算方法是（）。
中国大学慕课《数据挖掘与python实践》第三单元测验
21.在利用中文文本绘制词云时，需要在anaoncda的基础上安装哪些工具包（）。

22.数据清洗的主要目的是将数据集中存在的（）和（）进行处理，降低其对后续数据分析处理的影响。
中国大学慕课《数据挖掘与python实践》第三单元测验
23.通过数据离散化，可以实现缩减数据量的效果。

24.一种简单的填补缺失值的方法为, 将属于同一类的对象的该属性值的均值赋予此缺失值。

25.分箱离散化是一种有监督离散化方法。
中国大学慕课《数据挖掘与python实践》第三单元测验
26.选择属性子集的方法一般采用启发式方法，只检验部分可能性比较大的子集，这样可以快速完成属性的选择。

27.主成分分析能够达到去除冗余、降低噪音和降维的目的，但无法得到反映事物本质的新变量。
中国大学慕课《数据挖掘与python实践》第三单元测验
28.在主成分分析中，每个主成分都是原始变量的线性组合，且各个主成分之间互不相关。

29.使用主成分分析法进行数据属性特征提取中，每个新的特征是原有特征的 线性组合 。
30.一组数据：20，40，50，58，65，80，80，82，86，90，96，105，120，200。使用最大-最小法进行数据规范化，目标区间为[0,1]，则80映射到新区间后的值为_0.33__。（四舍五入保留小数点后两位）