【发布时间】:2012-02-22 07:45:24
【问题描述】:
我试图确定 VowpalWabbit 的“状态”是如何随着输入集大小的增长而保持的。在典型的机器学习环境中,如果我有 1000 个输入向量,我希望一次发送所有这些,等待模型构建阶段完成,然后使用模型创建新的预测。
在大众汽车中,算法的“在线”性质似乎将这种范式转变为更高性能并能够实时调整。
-
这种实时模型修改是如何实现的?
-
随着时间的推移,大众是否会在总输入数据大小方面占用越来越多的资源?也就是说,当我向我的 VW 模型添加更多数据时(当它很小时),一旦特征向量输入的累积数量增加到 1000、10000 或数百万,实时调整计算是否开始花费更长的时间?
【问题讨论】:
-
这取决于您所说的 “[higher] 总输入数据大小随时间变化” 的含义。如果您使用的是分类特征,那么如果“更多数据”意味着“分类中的更多级别”,特别是如果您打开高阶交互,则会出现影响准确性的哈希冲突,所以是的,您最终需要增加'- b' 哈希位深度,因此您对特征哈希的内存要求。然而,权重向量(保存在内存中)仍然很小。
标签: performance machine-learning scalability vowpalwabbit online-algorithm