【发布时间】:2021-04-09 10:19:33
【问题描述】:
在make_classification方法中,
X,y = make_classification(n_samples=10, n_features=8, n_informative=7, n_redundant=1, n_repeated=0 , n_classes=2,random_state=6)
关于n_redundant的文档字符串:冗余特征的数量。这些特征生成为 信息特征的随机线性组合。
关于n_repeated的文档字符串:重复特征的数量,从信息中随机抽取
- n_repeated 特征很容易被挑选出来,因为它们与信息丰富的特征高度相关。
- 重复和冗余特征的文档字符串表明两者都是从信息特征中提取的。
我的问题是:如何删除/突出显示冗余特征,它们有什么特点。
附上所有特征之间的相关热图,图中哪个特征是多余的。
【问题讨论】:
-
我投票结束这个问题,因为它是关于统计数据,而不是编程。它属于Cross Validated 而不是这里。
-
谢谢你的评论,我其实是在看sklearn的观点,如何从假数据生成方法中去除冗余数据。
标签: scikit-learn statistics data-science correlation