什么是比较差异很小的数据集之间相似性的好方法？答案

【问题标题】：What is a good way to compare similarity between datasets with little variance?什么是比较差异很小的数据集之间相似性的好方法？
【发布时间】：2012-01-16 19:02:08
【问题描述】：

假设我有一个包含 100 名 MLB 投手的列表，以及每个投手的 5 个统计数据。例如，ERA 3.5 和 3.1 之间的差异对于简单的相似性算法来说可能看起来不是很多，但在棒球中却很大。鉴于我正在查看的很多球员统计数据都有这样的小差异，很多这样的小差异，计算两个球员之间相似度的最佳方法是什么？

数据示例可能如下所示：

Player | ERA | Wins | Strikeouts
--------------------------------
A      | 3.5 | 15   | 180
B      | 3.1 | 12   | 210
C      | 3.4 | 13   | 150

我使用了余弦相似度，结果非常相似，精确到小数点后的千分之一。

【问题讨论】：

您可能需要一些归一化的欧几里得距离。 ERA 代表什么？是高斯、多项式、...？
您可能会在statistics stackexchnage得到更好的答案
我认为您没有足够的信息来开始进行比较。我相信“phs”通过说“正常化”走在正确的轨道上，但我可能会从每局或每场比赛的 Ks、胜负等开始，然后查看方差、偏斜、峰度，然后是分布类型，以及，哦，找一些原始数据。

标签： algorithm statistics similarity

【解决方案1】：

在比较示例之前对每个特征进行归一化。

因此，对于数据集中的每一列，计算平均值和范围（宽度）。然后减去平均值并除以范围。如果您有很多异常值，请改为除以标准差。

【讨论】：

【解决方案2】：

我会使用一些基于概率的统计数据进行比较。最好的起点是：

http://en.wikipedia.org/wiki/Analysis_of_variance : 这里的大部分方法都是参数化的。

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test：非参数方法示例

【讨论】：