【发布时间】:2015-10-13 22:22:36
【问题描述】:
我有美国人口样本的数据。样本的数据集有 N = 10,000 条记录。每一行都由一个定量解释变量 E 描述,该变量影响人们退回所购商品的概率 R。样本和总体有必要具有相似的 E 分布,以确保将其链接到 R 的统计模型的有效性。
E 在美国人口和样本中的频率分布之间存在显着差异(参见下面的摘要)。特别是,正态分布似乎不能很好地描述人口分布。
Value of E Population Distribution of E Sample Distribution of E
0-10 56.57% 92.95%
10.01 - 20 6.90% 1.19%
20.01 - 30 8.29% 1.38%
30.01-40 5.87% 0.85%
40.01 - 50 8.18% 0.32%
50.01 - 60 4.63% 0.48%
60.01-70 1.34% 0.32%
70.01 - 80 1.50% 0.08%
80.01 - 90 0.29% 0.49%
90.01-100 3.72% 1.12%
100.01-110 2.10% 0.69%
110.01-120 0.24% 0.00%
120.01+ 0.35% 0.13%
R 中有哪些好的做法可以使样本的 E 分布更接近于人口的分布,希望能与之匹配?我尝试过滤掉具有低 E 值的样本数据,但无济于事。同时,我不太确定要使用哪些转换,因为大多数常见转换都试图将数据拟合到正态分布——这在这里似乎不适用。
我自己认为 E 的转换(可能包括权重)是允许的,删除边界行是可以接受的,并且禁止创建新行 --- 但我会很感激任何关于在类似于的上下文中通常被认为是允许的操作的输入矿。
【问题讨论】:
-
这真的是一个特定于 R 的问题吗?你会怎么做任何语言。如果您对此没有答案,那么这个问题可能更适合讨论统计主题的Cross Validated。
-
我确实在 Cross Validated 上发帖,因为这个问题的理论/统计方面非常强大。然而,我希望也能深入了解人们如何使用 R 尝试将数据“拟合”到已知的非正态分布中。我广泛使用 R 来确保正常性,但这是我第一次不得不处理此类问题。
标签: r