Item-to-item协同过滤,如何管理相似度矩阵?

Item-to-item collaborative filtering, how to manage similarity matrix?

我正在开发一个推荐引擎,我现在面临的一个问题是项目的相似矩阵很大。

我计算了 20,000 个项目的相似度矩阵并将它们存储在一个二进制文件中,该文件大小接近 1 GB。我觉得太大了。

如果您有那么多项目,处理相似性矩阵的最佳方法是什么?

任何建议!

其实相似度矩阵是关于一个对象与另一个对象的相似程度。每行包含对象的邻居(行 ID),但您不需要存储所有邻居,例如只存储 20 个邻居。使用 lil_matrix: from scipy.sparse import lil_matrix