哪种预测建模技术最有帮助？答案

【问题标题】：Which predictive modelling technique will be most helpful?哪种预测建模技术最有帮助？
【发布时间】：2013-09-18 22:49:00
【问题描述】：

我有一个训练数据集，它根据过去几年（2005-2007 年）的表现为我提供了各种板球运动员（2008 年）的排名。

我必须使用这些数据开发一个模型，然后将其应用于另一个数据集，以使用已经提供给我的数据（2009-2011）预测玩家（2012）的排名。

哪种预测模型最适合这一点？使用不同形式的回归或神经网络的优缺点是什么？

【问题讨论】：

【解决方案1】：

要使用的模型类型取决于不同的因素：

数据量：如果您的数据很少，您最好选择线性回归等简单的预测模型。如果您使用的预测模型过于强大，您将面临过度拟合模型的风险，从而导致新数据泛化不良。现在你可能会问，什么是小数据？这取决于输入维度的数量和数据的基本分布。
您对模型的体验。如果您对神经网络没有什么经验，那么处理它们可能会非常棘手。有很多参数需要优化，比如网络层结构、迭代次数、学习率、动量项等等。就这种“元优化”而言，线性预测更容易处理

如果您仍然无法选择其中一种方法，那么实用的方法是评估几种不同的预测方法。您将一些已经有目标值的数据（2008 年的数据）分成训练数据和测试数据（例如，将 10% 作为测试数据），使用交叉验证进行训练和测试，并计算错误率将预测值与您已有的目标值进行比较。

C. Bishop 的模式识别和机器学习是一本很棒的书，它也在网络上。它有一个关于预测模型的精彩介绍部分。

【讨论】：

【解决方案2】：

哪种预测模型最适合这个？ 2.有什么优点以及使用不同形式的回归或神经网络的缺点网络？

“什么是最好的”取决于您拥有的资源。具有信息理论学习图的完整贝叶斯网络（或 k-依赖贝叶斯网络）是最终的“无假设”模型，并且通常表现得非常好。复杂的神经网络也可以表现得非常出色。此类模型的问题在于它们的计算成本可能非常高，因此采用近似方法的模型可能更合适。回归、神经网络和贝叶斯网络之间存在数学上的相似之处。
回归实际上是一种简单的神经网络形式，对数据有一些额外的假设。可以构建神经网络以减少对数据的假设，但正如 Thomas789 指出的那样，其代价是难以理解（有时非常难以调试）。

根据经验 - 模型中的假设和近似值越多，就越容易 A：理解和 B：找到必要的计算能力，但可能会以性能或“过度拟合”为代价（这是当模型非常适合训练数据，但不能外推到一般情况）。

免费在线书籍：

【讨论】：