如何比较 2 个统计采样器的性能？答案

【问题标题】：How to compare the performance of 2 statistical samplers?如何比较 2 个统计采样器的性能？
【发布时间】：2021-06-16 06:02:05
【问题描述】：

假设我有一个有 10 棵树的果园，总共有 1000 个苹果。果园中的每棵树可能有不同数量的苹果，或者根本没有苹果。我有两个桶采样器：第一个很小，一次从一棵树上取 X% 的苹果（即每个样本），第二个采样器很大，一次从两棵树上取 X% 的苹果.两个采样器的 X% 相同，采样没有替换（意味着在特定样本中取出的苹果仍然存在），并且两个采样器必须准确地制作 50 个样本。另外，我假设这两个采样器不在同一个果园上运行，但它们每个都有自己的果园，与另一个相同。

我需要比较每个采样器在 50 个样本后产生的苹果总量。当然，如果 X=100%，两个采样器都将采出果园中的所有苹果，它们的性能将相同；但是我如何计算它们作为 X% 函数的性能差异？

【问题讨论】：

标签： statistics distribution sampling

【解决方案1】：

我没有适合您的解决方案，但我怀疑缺少信息或我误解了某些内容。下面我以 X=100 为例来描述问题。

N=10 是树的总种群大小 BS1 从 50 棵树上采集 X% 的苹果 BS2 从 100 棵树上收集 X% 的苹果让 i 表示 i=1,..,10 的 i'the 树。令 yi 表示树 i 上的苹果数。让我们假设每棵树都有固定的未知数量的苹果。因为你说总共有 1000 个苹果意味着当 9 棵树上的所有苹果都被采样时，我们知道第 10 棵树上的苹果数量——但我会忽略这一点，并假设 yi 完全未知。

如果 X=100% 并且我们采样一次 BS1 收集随机选择？树以某种概率收集 - 假设每棵树 1/10。同时 BS2 对两棵树做同样的事情。假设 BS2 和 BS1 不能采摘同一棵树，并且 BS1 总是先采摘。

在第一个样本之后，BS1 挑选了 yi 个苹果，BS2 挑选了 yl+yj 个苹果，对于 (i,j,l in 1,...10, and i \ne j\ne l)。

在第三个样本之后，只有一棵树会留下苹果。由于 BS1 先采摘并且我们不放回采样，因此 BS1 将采摘 3+1 棵树，而 BS2 将采摘 6 棵树因此 BS1 总是会采摘一半以上的树（因为他先采摘）。采摘的苹果数量将取决于苹果在树上的分布情况。

【讨论】：

很抱歉，我遗漏了一些信息：（1）我假设两个采样器不在同一个果园上操作，但每个都有自己的果园，与另一个相同. (2) 每个采样者必须对他的果园进行 50 次采样，即使它采样了一棵之前已经采样过的树。
这就留下了一个新问题，因为您必须采样 50 次，所以您无法获得没有替换的样品，如上所述。在一个有 10 棵树的田野中，两个采样器将在 10 个样本后用完树。在 X=100 的情况下
@user9446044 如果您遗漏了基本信息，您需要编辑您的问题并更正该遗漏。
我编辑了原始问题。 @Kirsten，非常感谢您的意见！