检验合成数据的幂律假设答案

【问题标题】：Testing a power-law hypothesis for synthetic data检验合成数据的幂律假设
【发布时间】：2015-05-06 10:48:38
【问题描述】：

我正在尝试使用最大似然估计器来检查某些合成数据集中是否存在幂律。我正在遵循this paper 中描述的方法。在这种方法中，观察向量 x 被馈送到代码中，然后代码告诉置信水平（p 值），馈送的数据将来自幂律分布。对于单个数据集，这非常简单。但是，现在我尝试将相同的代码用于稍微不同的情况。所以我正在对某个过程进行许多（比如 100 个）随机模拟，每个模拟都返回一个长度为 1000 的向量 x。然后我对所有这 100 个实现的分布进行平均，以找到平均 x，其分布在 log-log 上看起来大致直线阴谋。要使用上面的代码找到 p 值，我必须提供与平均分布相对应的观察向量。但是，在这里我遇到了问题。最初我只是将平均分布乘以 1000，然后取这个乘积的最接近的整数作为某个值的观察频率。但有时某个值出现在 100 个实现中的少数几个中，然后在我构造向量时根本不会出现相应的值。因此，我放弃了分布尾部的所有值。有没有更好的方法从这种平均分布中计算 p 值来检验幂律假设？

【问题讨论】：

我投票结束这个问题，因为这个问题是关于统计数据的

标签： power-law

【解决方案1】：

总而言之，您是在尝试从一百个数据实现中选择最合适的吗？随着数据的模拟，我想所有模拟中的噪声都是恒定的，并且每个模拟中的数字相同，所以每个实现都具有相同的权重？在这种情况下，将它们放在一起并根据参数计算每个 x 的 y（假设您只是将功率图转换为 y=mx+ c）m 和 c 并根据样本中的噪声询问，概率是多少的模拟值。将所有 x 组合在一起，然后对不同的 m 和 c 值重复（可能需要查看 Gibbs 采样）。然后，您可以使用给您最高概率的 m 和 c 的值。

【讨论】：

我认为这不是我的问题的答案。 “集中”它们是什么意思？我取他们的平均值。另外，我并不是要求一种最适合的特定方法。我已经知道一个（最大似然估计）。
lumping= 将所有数据点放在一起。英语俚语，对不起。我不明白为什么你不能同时对所有数据点进行 MLE，所以不要平均。这将解决您的缺失点问题，这可能会严重影响您的拟合。对于交叉验证，这可能是一个更好的问题。