如何从 1,000,000 行和 20,000 个特征中获取最近邻矩阵?

How Can I get the nearest neighbor matrix from 1,000,000 rows and 20,000 features?

我有大麻烦了。 我想计算一千万条记录的关系,但是因为Spark内存不足,处理停止了。 通过 TF-Hashing 创建一千万个文档来创建 20,000 个维度的特征。 首先,我尝试了'-近似相似连接',但计算没有收敛。 接下来,我尝试尝试scikit-learn的KNN,但是当我将所有数据都带到Driver时,内存溢出了。 没有其他办法吗?

最近邻似乎不是 Spark 的 MLLib 的一部分。我想到的方案是找分布式spark实现或者找tensorflow实现

在 Databricks 上吗?最近的版本支持分布式 Tensorflow。在单节点 Databricks Tensorflow 集群上,我有比你的大 运行 的卷。

快速搜索找到了这些 * tensorflow nearest neighbor * spark nearest neighbor

请注意,我自己还没有尝试过这些。