【发布时间】:2017-08-31 14:51:25
【问题描述】:
在评估推荐系统时,可以将他的数据分成三部分:训练集、验证集和测试集。在这种情况下,训练集将用于从数据中学习推荐模型,而验证集将用于选择要使用的最佳模型或参数。然后,使用选择的模型,用户可以使用测试集评估他的算法的性能。
我找到了 scikit-learn 交叉验证 (http://scikit-learn.org/stable/modules/cross_validation.html) 的文档页面,其中说在使用 k-fold-cross 验证时不需要将数据分成三部分,而只需分成两部分:训练和测试。
解决此问题的方法是一种称为交叉验证(简称 CV)的过程。仍应保留测试集以进行最终评估,但在进行 CV 时不再需要验证集。在称为 k-fold CV 的基本方法中,将训练集拆分为 k 个较小的集(其他方法如下所述,但通常遵循相同的原则)。
我想知道这是否是一个好方法。如果是这样,有人可以向我展示支持该理论的文章/书籍的参考资料吗?
【问题讨论】:
-
恐怕你的问题在这里不太合适。你应该把它发到datascience.stackexchange.com
标签: validation machine-learning