Item-to-item协同过滤，如何管理相似度矩阵？

Item-to-item collaborative filtering, how to manage similarity matrix?

我正在开发一个推荐引擎，我现在面临的一个问题是项目的相似矩阵很大。

我计算了 20,000 个项目的相似度矩阵并将它们存储在一个二进制文件中，该文件大小接近 1 GB。我觉得太大了。

如果您有那么多项目，处理相似性矩阵的最佳方法是什么？

任何建议！

其实相似度矩阵是关于一个对象与另一个对象的相似程度。每行包含对象的邻居（行 ID），但您不需要存储所有邻居，例如只存储 20 个邻居。使用 lil_matrix： from scipy.sparse import lil_matrix