【发布时间】:2019-06-18 09:22:04
【问题描述】:
我有一个包含大约 20000 行和 98 个特征(所有特征都是数字)的数据框和一个具有二进制值的目标特征:0 和 1。基本上,有两个总体(第一个总体目标值为 1 --50% --,第二个目标值为 0 -50%- 平衡数据)。在一个分类问题中,我试图在给定数据的情况下预测目标值。所以,我植入了一个监督学习算法(例如,SVM)来预测目标值,并且可以得到一个非常好的结果,准确率在 0.95 左右。这个结果给了我一个观点,即特征之间存在相当大的差异。因此,在下一步中,我必须知道造成这种差异的重要特征是什么,以及量化这两组人群之间特征差异的最佳方法是什么。有什么想法吗?
【问题讨论】:
-
您能否分享有关您的 SVM 模型的更多详细信息?您可以使用多种可能的方法,这可能会影响答案
标签: python machine-learning statistics data-mining feature-selection