如何确保所有用户和所有项目都出现在我的推荐系统的训练集中？答案

【问题标题】：How can I ensure that all users and all items appear in the training set of my recommender system?如何确保所有用户和所有项目都出现在我的推荐系统的训练集中？
【发布时间】：2021-08-28 17:57:02
【问题描述】：

我正在使用 MovieLens 数据集 (https://grouplens.org/datasets/movielens/latest/) 在 Python 中构建推荐系统。为了让我的系统正常工作，我需要所有用户和所有项目都出现在训练集中。但是，我还没有找到一种方法来做到这一点。我尝试在与每个用户相关的数据集分区上使用sklearn.model_selection.train_test_split，然后将结果连接起来，从而成功创建了包含每个用户给出的至少一个评分的训练和测试数据集。我现在需要的是找到一种方法来创建训练和测试数据集，这些数据集也至少包含每部电影的评分。

【问题讨论】：

标签： python training-data recommender-systems test-data

【解决方案1】：

这个要求是相当合理的，但我所知道的任何框架的数据摄取例程都不支持。大多数训练范例都假定您的数据集已充分填充，以至于丢失任何一个输入或输出的可能性可以忽略不计。

由于您需要保证这一点，您需要切换到算法解决方案，而不是概率解决方案。我建议你用输入和输出标记每个观察，然后将“集合覆盖问题”应用于数据集。

您可以根据需要继续使用尽可能多的不同覆盖集来填充您的训练集（我建议这样做）。或者，您可以设置较低的要求阈值——比如获得三组总覆盖率——然后对其余部分恢复为随机方法。

【讨论】：