一般对于强相关性的两个变量,画图就能定性判断是否相关
# 散点图矩阵初判多变量间关系
data = pd.DataFrame(np.random.randn(200,4)*100, columns = ['A','B','C','D'])
pd.plotting.scatter_matrix(data,figsize=(8,8),
c = 'k',
marker = '+',
diagonal='hist',
alpha = 0.8,
range_padding=0.1)
data.head()
- 折线图
二、单特征
1.方差选择法
删除方差为0的特征
# 计算变量的方差 # 如果方差接近于0,也就是该特征的特征值之间基本上没有差异,这个特征对于样本的区分并没有什么用,剔除 from sklearn.feature_selection import VarianceThreshold selector = VarianceThreshold(threshold=0.1)#默认threshold=0.0 selector.fit_transform(offline_data_shuffle1[numerical_features]) # 查看各个特征的方差, selector.variances_ ,len(selector.variances_) # 特征对应方差 all_used_features_dict = dict(zip(numerical_features,selector.variances_ )) all_used_features_dict