Item-to-item协同过滤,如何管理相似度矩阵?
Item-to-item collaborative filtering, how to manage similarity matrix?
我正在开发一个推荐引擎,我现在面临的一个问题是项目的相似矩阵很大。
我计算了 20,000 个项目的相似度矩阵并将它们存储在一个二进制文件中,该文件大小接近 1 GB。我觉得太大了。
如果您有那么多项目,处理相似性矩阵的最佳方法是什么?
任何建议!
其实相似度矩阵是关于一个对象与另一个对象的相似程度。每行包含对象的邻居(行 ID),但您不需要存储所有邻居,例如只存储 20 个邻居。使用 lil_matrix:
from scipy.sparse import lil_matrix
我正在开发一个推荐引擎,我现在面临的一个问题是项目的相似矩阵很大。
我计算了 20,000 个项目的相似度矩阵并将它们存储在一个二进制文件中,该文件大小接近 1 GB。我觉得太大了。
如果您有那么多项目,处理相似性矩阵的最佳方法是什么?
任何建议!
其实相似度矩阵是关于一个对象与另一个对象的相似程度。每行包含对象的邻居(行 ID),但您不需要存储所有邻居,例如只存储 20 个邻居。使用 lil_matrix:
from scipy.sparse import lil_matrix