1.运行以下代码
from sklearn.datasets import load_iris
iris_data = load_iris()
iris_data.data.shape
输出结果为(150, 4)。则表示iris数据集包括样本特征数为( )。
2.在Numpy包中,计算中位数的函数为( )。
3.在Numpy包中,计算标准差的函数为( )。
4.运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制折线图,需要利用的函数为( )。
5.运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制直方图,需要利用的函数为( )。
6.运行以下代码” import matplotlib.pyplot as plt”引入plt后,要绘制散点图,需要利用的函数为( )。
7.使用最小-最大法进行数据规范化,需要映射的目标区间为[0,100],原来的取值范围是[-10,10]。根据等比映射的原理,一个值8映射到新区间后的值是( )。
8.使用等距离分箱法进行数据离散化,数据范围为20, 40, 50, 58, 65, 80, 80, 82, 86, 90, 96, 105, 120, 200,区间个数为4。下列属于4个箱的区间是( )。
9.特征选择方法中,一般的启发式方法有( )。
10.在使用主成分分析法进行数据属性特征提取中,在对数据集进行中心化处理后,为了去除冗余和降低噪音,应将协方差矩阵非对角线上的元素化为( )。
11.关联规则的挖掘算法只能处理( )类型的取值,为此( )是继续其知识发现过程的必要步骤。
12.下列不属于数据预处理原因的是( )。
13.下列关于数据规范化说法错误的是( )。
14.缺失值处理方法中错误的是( )。
15.主成分分析的步骤是( )。
16.数据预处理的任务不包括( )。
17.使用python处理缺失值的方法中叙述错误的是( )。
18.最小最大规范化方法MinMaxScaler属于python中的哪个包( )。
19.主成分分析方法PCA属于属于python中的哪个包( )。
20.最小-最大法中,假设需要映射到目标区间为[L,R ],原来的取值范围为[l, r ]。一个值x映射到新区间后的值v的计算方法是( )。
21.在利用中文文本绘制词云时,需要在anaoncda的基础上安装哪些工具包( )。
22.数据清洗的主要目的是将数据集中存在的( )和( )进行处理,降低其对后续数据分析处理的影响。
23.通过数据离散化,可以实现缩减数据量的效果。
24.一种简单的填补缺失值的方法为, 将属于同一类的对象的该属性值的均值赋予此缺失值。
25.分箱离散化是一种有监督离散化方法。
26.选择属性子集的方法一般采用启发式方法,只检验部分可能性比较大的子集,这样可以快速完成属性的选择。
27.主成分分析能够达到去除冗余、降低噪音和降维的目的,但无法得到反映事物本质的新变量。
28.在主成分分析中,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关。
29.使用主成分分析法进行数据属性特征提取中,每个新的特征是原有特征的 线性组合 。
30.一组数据:20,40,50,58,65,80,80,82,86,90,96,105,120,200。使用最大-最小法进行数据规范化,目标区间为[0,1],则80映射到新区间后的值为_0.33__。(四舍五入保留小数点后两位)