【发布时间】:2012-01-16 19:02:08
【问题描述】:
假设我有一个包含 100 名 MLB 投手的列表,以及每个投手的 5 个统计数据。例如,ERA 3.5 和 3.1 之间的差异对于简单的相似性算法来说可能看起来不是很多,但在棒球中却很大。鉴于我正在查看的很多球员统计数据都有这样的小差异,很多这样的小差异,计算两个球员之间相似度的最佳方法是什么?
数据示例可能如下所示:
Player | ERA | Wins | Strikeouts
--------------------------------
A | 3.5 | 15 | 180
B | 3.1 | 12 | 210
C | 3.4 | 13 | 150
我使用了余弦相似度,结果非常相似,精确到小数点后的千分之一。
【问题讨论】:
-
您可能需要一些归一化的欧几里得距离。 ERA 代表什么?是高斯、多项式、...?
-
您可能会在statistics stackexchnage得到更好的答案
-
我认为您没有足够的信息来开始进行比较。我相信“phs”通过说“正常化”走在正确的轨道上,但我可能会从每局或每场比赛的 Ks、胜负等开始,然后查看方差、偏斜、峰度,然后是分布类型,以及,哦,找一些原始数据。
标签: algorithm statistics similarity