使用 pairwise_distances_chunked 查找成对余弦距离矩阵的优化方法
Optimized way to find pairwise cosine distance matrix using pairwise_distances_chunked
我有一个 42000(行)* 110000(维度)的 numpy 数组,我正在尝试创建一个具有 32GB 内存和 8 个内核的成对距离矩阵 (42000*42000)。
我尝试了 pairwise_distances_chunked 但它只给出了 3120*42000 距离矩阵。也使用了 pairwise_distances 但它给出了内存不足错误。
有什么建议可以做什么?
阅读 pairwise_distances_chunked 的文档,它一次产生一个块。根据您表达问题的方式,您似乎是这样做的:
D_chunk = next(pairwise_distances_chunked(X))
该代码(这是文档中的第一个示例)只为您提供了第一个块。
你要做的是:
for chunk in pairwise_distances_chunked(X):
do_something(chunk)
我有一个 42000(行)* 110000(维度)的 numpy 数组,我正在尝试创建一个具有 32GB 内存和 8 个内核的成对距离矩阵 (42000*42000)。
我尝试了 pairwise_distances_chunked 但它只给出了 3120*42000 距离矩阵。也使用了 pairwise_distances 但它给出了内存不足错误。
有什么建议可以做什么?
阅读 pairwise_distances_chunked 的文档,它一次产生一个块。根据您表达问题的方式,您似乎是这样做的:
D_chunk = next(pairwise_distances_chunked(X))
该代码(这是文档中的第一个示例)只为您提供了第一个块。
你要做的是:
for chunk in pairwise_distances_chunked(X):
do_something(chunk)