如何从 1,000,000 行和 20,000 个特征中获取最近邻矩阵？

How Can I get the nearest neighbor matrix from 1,000,000 rows and 20,000 features?

python
knn
apache-spark
pyspark
databricks

我有大麻烦了。我想计算一千万条记录的关系，但是因为Spark内存不足，处理停止了。通过 TF-Hashing 创建一千万个文档来创建 20,000 个维度的特征。首先，我尝试了'-近似相似连接'，但计算没有收敛。接下来，我尝试尝试scikit-learn的KNN，但是当我将所有数据都带到Driver时，内存溢出了。没有其他办法吗？

最近邻似乎不是 Spark 的 MLLib 的一部分。我想到的方案是找分布式spark实现或者找tensorflow实现

在 Databricks 上吗？最近的版本支持分布式 Tensorflow。在单节点 Databricks Tensorflow 集群上，我有比你的大运行的卷。

快速搜索找到了这些 * tensorflow nearest neighbor * spark nearest neighbor

请注意，我自己还没有尝试过这些。

如何从 1,000,000 行和 20,000 个特征中获取最近邻矩阵？

How Can I get the nearest neighbor matrix from 1,000,000 rows and 20,000 features?

python

knn

apache-spark

pyspark

databricks