【发布时间】:2016-11-17 23:17:22
【问题描述】:
我有一个看似简单的问题,但让我有点困扰。
我有几个由名义属性组成的向量。它们可以有不同的长度,有时一个中的某些属性可能不包含在另一个中。请参阅 a 和 b 作为两个潜在示例。
a
1 mathematician
2 engineer
3 mathematician
4 mathematician
5 mathematician
6 engineer
7 mathematician
8 mathematician
9 mathematician
10 mathematician
11 mathematician
12 engineer
13 mathematician
14 mathematician
15 engineer
b
1 physicist
2 surgeon
3 physicist
4 surgeon
5 physicist
6 physicist
7 surgeon
8 surgeon
9 physicist
10 physicist
11 mathematician
您是否想到了一个可以总结它们之间差异的度量(索引)?我正在寻找的度量类型类似于Euclidean distance,但用于定性向量。
我想到的一个选项是实际计算之前转换为频率向量的分类向量之间的欧几里得距离。通过这种方式,它们将成为定量的并且将具有相同的长度。但我的问题是,您认为这是一种合理的方法吗?
更一般地说,是否有一个 R 包可以处理这些类型的距离?您能否建议其他适合名义变量情况的距离?
非常感谢!
【问题讨论】:
-
也许您可以进一步详细说明:您打算如何处理该措施?您尝试过什么,为什么您尝试过的不满意?
-
@carloscinelli 谢谢你的回答。我尝试这样做的原因是我需要比较组的组成,同时考虑(如果需要,控制)组的大小。
-
tm::dissimilarity有用吗? -
@TylerRinker 非常有趣的包。