【发布时间】:2015-01-25 22:31:03
【问题描述】:
对于我的课堂项目,我正在处理Kaggle competition - Don't get kicked
该项目是将测试数据分类为汽车的好/坏购买。有 34 个特征,数据高度倾斜。我做了以下选择:
- 由于数据高度偏斜,在 73,000 个实例中,有 64,000 个实例是不合格的,只有 9,000 个实例是合格的。由于构建决策树会过度拟合数据,因此我选择使用 kNN - K 最近邻。
在尝试了 kNN 之后,我打算 try out Perceptron and SVM techniques,如果 kNN 没有产生好的结果。我对过拟合的理解正确吗? - 由于某些特征是数字的,我可以直接使用欧几里得距离作为度量,但还有其他属性是分类的。为了恰当地使用这些功能,我需要想出自己的距离测量方法。我阅读了有关 Hamming distance 的信息,但我仍然不清楚如何合并 2 个距离度量以使每个特征具有相等的权重。
- 有没有办法找到一个好的近似 k 值?我知道这在很大程度上取决于用例,并且因问题而异。但是,如果我从每个邻居那里获得一个简单的投票,我应该将 k 的值设置为多少?我目前正在尝试各种值,例如 2、3、10 等。
我四处研究并找到了这些链接,但这些链接并没有特别的帮助 -
a) Metric for nearest neighbor,它表示找出自己的距离度量相当于“内核化”,但没有多大意义。
b) Distance independent approximation of kNN 谈论 R-trees、M-trees 等我认为不适用于我的案例。
c) Finding nearest neighbors using Jaccard coeff
如果您需要更多信息,请告诉我。
【问题讨论】:
标签: machine-learning classification nearest-neighbor knn euclidean-distance