对 GB 中的大型数据集实施最大似然估计的最佳/首选方法是什么答案

【问题标题】：What is the best/preferred approach to implement Maximum Likelihood Estimation for large data sets in GBs对 GB 中的大型数据集实施最大似然估计的最佳/首选方法是什么
【发布时间】：2013-01-21 11:08:30
【问题描述】：

我有一个以千兆字节 (GB) 为单位的数据集，并想估计其中缺失值的参数。

在机器学习中有一种称为 MLE（最大似然估计）的算法可以用于它。
由于 R 可能无法在如此大的数据集上运行，那么哪个库最适合用于它？

【问题讨论】：

只是为了澄清：您是否尝试估计统计分布的参数？确定参数后，您想使用分布来估计缺失数据吗？

标签： machine-learning

【解决方案1】：

wiki:MLE:

在统计学中，最大似然估计 (MLE) 是一种估计统计模型参数的方法。当应用于数据集并给出统计模型时，最大似然估计提供模型参数的估计。

在申请 MLE 之前，通常需要两个步骤：

获取数据集
识别统计模型

此时，如果您可以获得 MLE 估计的解析形式的解，只需将您的数据流式传输到 mle-estimate 计算中，例如，对于高斯分布，要估计均值，您只需累积总和，并保持计数和样本均值将是您的 mle-estimate。

但是，当模型涉及许多参数并且其pdf 高度非线性时。在这种情况下，必须使用非线性优化算法在数值上寻求 MLE 估计。如果你的数据量很大，试试stochastic gradient descent，真实的梯度是通过一个例子的梯度来近似的。当算法扫描训练集时，它会为每个训练示例执行更新公式。这样您仍然可以以多次扫描的方式一次将一个数据流式传输到您的更新程序。这样一来，内存限制应该根本不是问题。

【讨论】：