Spark Clustering:如何获得同一集群中元素的相似性度量?

Spark Clustering: How to get a similarity measure of the elements within the same cluster?

我已经使用 Spark 对一些数据进行了聚类,现在我想获得我感兴趣的特定条目与我的条目所在的同一集群中的其他元素之间的相似度分数。是否有任何 Spark 算法或方法可以这个?

我读过 RowMatrix 的 ColumnSimilarities() 函数,但我对所有与所有相似性不感兴趣,只是针对其他向量集的一个非常具体的相似性。

Spark 中似乎没有这样的内置功能。你可以使用ColumnSimilarities(),然后索引i和j中的结果对应于项目i和j。

然而,这显然是低效的,而且说实话感觉也不太好。

所以如果我是你,我会查看 ColumnSimilarities() 的实现并针对项目对相似性进行调整;如果它很好,你也可以为 Apache Spark 项目做出贡献! ;)