【发布时间】:2019-04-03 10:42:00
【问题描述】:
我对统计建模完全陌生。我想知道什么是特征选择技术。
假设我有 10 个变量,但我需要其中真正重要的变量。
我在互联网上阅读了有关特征选择的内容,但对其中的一些技术了解甚少:
- 相关性
- 正向选择
- 向后淘汰
但我不知道如何使用它们。如何在特征选择中使用相关性。如何执行前向选择/后向消除等。
我可以使用哪些模型进行特征选择。我只想对它有一个高层次的概述。什么时候用什么
有人帮助我开始
【问题讨论】:
-
这是一个重要的问题,但是更适合 stats.stackexchange.com。也就是说,基本上没有办法改进尝试每种变量组合以查看最有效的方法 - 其他方法是近似值,通常运行速度更快。在探索各种方法时请牢记这一点。
-
@RobertDodier 是的,即便如此它也被否决了:(
-
网络搜索“特征选择机器学习”应该会找到很多资源。祝你好运,玩得开心,这是一个很好的话题。
-
也许包含特征选择类的开源包可以作为起点提供帮助:Scikit-learn (scikit-learn.org/stable/modules/feature_selection.html)、Feature-engine (feature-engine.readthedocs.io/en/latest/selection/index.html) 和 mlxtend (rasbt.github.io/mlxtend/user_guide/feature_selection/…)。另请查看描述主要技术的这篇文章:trainindata.medium.com/…
标签: machine-learning statistics data-science data-analysis feature-selection