我应该如何在分类变量和连续变量之间进行一致性分析？答案

【问题标题】：How should I conduct concordance analysis between categorical and continuous variables?我应该如何在分类变量和连续变量之间进行一致性分析？
【发布时间】：2021-04-14 06:09:08
【问题描述】：

我目前很难选择统计测试来验证使用两种不同测量方式的两种测量之间的一致性。以下是我的变量的结构。我将使用我的数据的假示例来帮助演示我的问题。

措施一：1 个标称变量，包含 8 个类别 - 主要汽车选择，例如，您主要选择的汽车品牌是什么。响应，例如，1 = 福特、2 = 霍顿、3 = 丰田、4 = 三菱、5 = 马自达、6 = 现代、7 = 斯巴鲁、8 = 大众。在这种情况下，参与者选择了一个类别作为他们的主要评级。措施二：从措施一中提取 8 个类别的 8 个连续变量。例如，请评估您购买 a____ 1) Ford 的可能性。参与者在所有 8 个变量中以 1（完全没有）到 5（极有可能）的等级评定他们对该项目的认可。

我的假设预测这两种测量方式会相互一致。即，如果有人选择福特作为他们的主要汽车选择，那么他们也极有可能支持购买福特，而不是其他汽车。

我应该为这种一致性分析考虑哪些统计测试？到目前为止，我已经考虑过使用加权 Cohen 的 kappa，但并不完全认为这适合我的示例。

干杯，

雅各布。

附言。请原谅我的选车问题，我来自澳大利亚，选择了我所在地区最常见的汽车品牌

【问题讨论】：

标签： measurement reliability

【解决方案1】：

原则上，你可以用这些数据做很多事情。

从你的讨论中我不清楚一件事。你有来自同一个人的这些数据吗？因此，您是否知道“人 A 会被福特所认可，并且他对所有品牌都有以下偏好？”还是这两个数据集是独立的，因此您只知道“x% 的人会购买福特，而对汽车的总体偏好是……”。后者不那么有趣，我相信只有前者是相关的讨论。对于后一种情况，Cohen kappa 可能是您能做的最好的事情。

但是，如果您拥有每个人的所有信息：

即使在这样一个相对简单的数据中也有很多方面。您不能将其减少到一个而不丢失大部分。我将首先制作一个表格或二维图，在 x 轴上，其中一个品牌（例如斯巴鲁）的评级为 1...5，在 y 轴上，8 个不同品牌的概率。我会发现有趣的是：哪些汽车是人们仅用 1 评价“制造 A”的首选汽车，并将其与仅用 1 评价“制造 B”的人们进行比较。如果你这样做，这种变化会有多大评分 5？

这项研究的一个特别有趣的结果是人们将“制造 A”评为 5 分的人实际选择“制造 A”的概率。并在所有品牌之间进行比较。品牌之间可能存在差异，例如一些品牌的购买者可能更受“理性”的驱使，而另一些则更受“时尚”的驱使。我相信与“原因”相比，“时尚”导致更高的相关性（因此更高的概率）......

【讨论】：

感谢您的回复 Ralf，这让我对数据可视化有了更多思考。我的数据来自同一个人，所以它是使用不同测量的重复测量设计。我认为科恩的 kappa 或某种变体可能是最接近回答我的问题的统计测试。令人着迷的是，在索引领域还需要更多的统计工作