特征选择技术答案

【问题标题】：Feature Selection Techniques特征选择技术
【发布时间】：2019-04-03 10:42:00
【问题描述】：

我对统计建模完全陌生。我想知道什么是特征选择技术。

假设我有 10 个变量，但我需要其中真正重要的变量。

我在互联网上阅读了有关特征选择的内容，但对其中的一些技术了解甚少：

但我不知道如何使用它们。如何在特征选择中使用相关性。如何执行前向选择/后向消除等。

我可以使用哪些模型进行特征选择。我只想对它有一个高层次的概述。什么时候用什么

有人帮助我开始

【问题讨论】：

这是一个重要的问题，但是更适合 stats.stackexchange.com。也就是说，基本上没有办法改进尝试每种变量组合以查看最有效的方法 - 其他方法是近似值，通常运行速度更快。在探索各种方法时请牢记这一点。
@RobertDodier 是的，即便如此它也被否决了:(
网络搜索“特征选择机器学习”应该会找到很多资源。祝你好运，玩得开心，这是一个很好的话题。
也许包含特征选择类的开源包可以作为起点提供帮助：Scikit-learn (scikit-learn.org/stable/modules/feature_selection.html)、Feature-engine (feature-engine.readthedocs.io/en/latest/selection/index.html) 和 mlxtend (rasbt.github.io/mlxtend/user_guide/feature_selection/…)。另请查看描述主要技术的这篇文章：trainindata.medium.com/…

【解决方案1】：

相关性 - 在这种方法中，我们查看目标变量如何与预测变量相关，并选择高度相关的变量并忽略其他变量。

前向选择 - 在此我们从 0 个预测变量开始并检查模型性能。然后在每个阶段，我们添加一个可以提供最佳模型性能的预测器。

后向选择 - 在此我们从所有预测变量开始。然后在每个阶段，我们都会删除一个可以提供更好模型性能的预测变量。

【讨论】：

在后向选择、前向选择等中，我们是否必须手动添加/删除变量，或者有自动执行此操作的函数
当然，我们有一个可以容纳所有东西的库。您可以通过以下链接在 R 中使用前向和后向选择进行回归。 sthda.com/english/articles/37-model-selection-essentials-in-r/…
对于相关性：我们如何确定两个变量之间是否存在线性关系（据我所知，相关性仅用于线性关系）
在 R 中，配对图会显示每个变量之间的相关性。对（测试数据）。相关性不仅仅用于回归。它也可以用于分类。相关性也可用于查找预测变量之间的任何依赖关系。