【问题标题】:What is a good way to compare similarity between datasets with little variance?什么是比较差异很小的数据集之间相似性的好方法?
【发布时间】:2012-01-16 19:02:08
【问题描述】:

假设我有一个包含 100 名 MLB 投手的列表,以及每个投手的 5 个统计数据。例如,ERA 3.5 和 3.1 之间的差异对于简单的相似性算法来说可能看起来不是很多,但在棒球中却很大。鉴于我正在查看的很多球员统计数据都有这样的小差异,很多这样的小差异,计算两个球员之间相似度的最佳方法是什么?

数据示例可能如下所示:

Player | ERA | Wins | Strikeouts
--------------------------------
A      | 3.5 | 15   | 180
B      | 3.1 | 12   | 210
C      | 3.4 | 13   | 150

我使用了余弦相似度,结果非常相似,精确到小数点后的千分之一。

【问题讨论】:

  • 您可能需要一些归一化的欧几里得距离。 ERA 代表什么?是高斯、多项式、...?
  • 您可能会在statistics stackexchnage得到更好的答案
  • 我认为您没有足够的信息来开始进行比较。我相信“phs”通过说“正常化”走在正确的轨道上,但我可能会从每局或每场比赛的 Ks、胜负等开始,然后查看方差、偏斜、峰度,然后是分布类型,以及,哦,找一些原始数据。

标签: algorithm statistics similarity


【解决方案1】:

在比较示例之前对每个特征进行归一化。

因此,对于数据集中的每一列,计算平均值和范围(宽度)。然后减去平均值并除以范围。如果您有很多异常值,请改为除以标准差。

【讨论】:

    【解决方案2】:

    我会使用一些基于概率的统计数据进行比较。最好的起点是:

    http://en.wikipedia.org/wiki/Analysis_of_variance : 这里的大部分方法都是参数化的。

    http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test:非参数方法示例

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-12-08
      • 2010-11-06
      • 2023-03-06
      • 2013-07-01
      • 1970-01-01
      • 2011-02-11
      • 1970-01-01
      • 2016-11-16
      相关资源
      最近更新 更多