【发布时间】:2018-05-17 10:23:21
【问题描述】:
假设我们有一组输入(命名为 x1、x2、...、xn),它们为我们提供输出 y。目标是根据 x1...xn 的一些尚未出现的值来预测 y。我很清楚,这个问题可以建模为机器学习领域的回归问题。
但是,假设数据源源不断。我能够从 x1 ... xn 预测 y。此外,我可以事后检查该预测是否正确。如果它是一个好的,一切都很好。另一方面,我想更新我的模型,以防预测与实际 y 有很大偏差。我可以看到的一种方法是将这些新数据插入我的训练集并再次训练回归算法。由此产生了两个问题。首先,不时从头开始重新计算我的模块的成本可能超出我的承受能力。其次,我的训练集上可能已经有太多数据,因此新的数据可以忽略不计。但是,由于我的问题的性质,新数据可能比旧数据更重要。
似乎一个好的解决方案是计算一种与新数据相关的连续回归,而不是旧数据。我已经搜索过这种方法,但我没有找到任何相关的东西。也许我看错了方向。有人知道怎么做吗?
【问题讨论】:
-
不就是使用样本权重吗(可能很多libs都支持)?
-
这不属于“不时从头开始重新计算我的模块的成本超出我的承受能力”类别吗?
-
取决于你解决的什么模型,你如何解决它以及你处理什么样的数据大小,很重要未提供信息。
标签: machine-learning regression linear-regression non-linear-regression