【发布时间】:2012-05-05 15:18:17
【问题描述】:
我需要在大量训练中训练回归模型 示例,有可能包含任意特征。什么 我应该考虑学习算法,为什么?
问题的快速总结:
- 大约 500 万个训练示例
- 以每年 2-4 百万的速度添加训练示例
- 目前每个训练示例包含 10 个特征
- 大约 400k 填充特征(在更大的总特征空间中)
- 随着时间的推移添加的其他功能
- 每天(至少)重新训练或调整模型以包含新示例
- 优化标准:最小平方百分比误差
- 输出:单个实数值
我有一些在类似大小的分类问题上训练对数线性模型的经验(使用 SVM、平均和投票感知器等)。添加任意特征的能力很重要,但在这种情况下,训练时间也很宝贵.
例如,到目前为止,我使用 SVMLight 进行的一项实验需要数周时间才能收敛到该数据的一个子集。我们可以跨多核机器或(可能)集群并行化,但我们需要在几分钟内训练模型。在线培训会更好。
我成功(并且很快)训练了一个平均感知器模型。但是,据我所知,AP 通常不适用于回归。 AP 是否为回归模型提供任何收敛保证?还有其他不应该适用的正式理由吗?或者这是否符合我的要求?
我还应该研究哪些其他选项? SVM 可能会提供更高的准确性,但二次训练时间是不可接受的。如果可以访问线性时间 SVM 算法,那可能会很好。
潜在优势:
- 在线培训
- 可用的开源实现(最好是在 Java 中)。如有必要,我们可以推出自己的实现,但我会尽可能避免这样做。
感谢您的意见。
【问题讨论】:
-
对于分类,我在随机梯度下降 SVM (leon.bottou.org/projects/sgd#) 方面取得了很大的成功——您可能希望将其用于回归。
标签: machine-learning