我如何确保所有用户和所有项目都出现在我的推荐系统的训练集中?

How can I ensure that all users and all items appear in the training set of my recommender system?

我正在 Python 使用 MovieLens 数据集 (https://grouplens.org/datasets/movielens/latest/) 构建推荐系统。为了让我的系统正常工作,我需要所有用户和所有项目都出现在训练集中。但是,我还没有找到一种方法来做到这一点。我尝试在与每个用户相关的数据集分区上使用 sklearn.model_selection.train_test_split,然后连接结果,从而成功创建了包含每个用户给出的至少一个评分的训练和测试数据集。我现在需要的是找到一种方法来创建训练和测试数据集,这些数据集还至少包含每部电影的一个评级。

这个要求很合理,但我所知道的任何框架的数据摄取例程都不支持。大多数训练范例都假定您的数据集已充分填充,以至于丢失任何一个输入或输出的可能性都可以忽略不计。

既然你需要保证这一点,你需要切换到算法解决方案,而不是概率解决方案。我建议你用输入和输出标记每个观察,然后将“集合覆盖问题”应用于数据集。

您可以根据需要继续使用尽可能多的不同覆盖集来填充您的训练集(我推荐)。或者,您可以设置较低的要求阈值——比如获得三组总覆盖率——然后对其余部分恢复为随机方法。