哪些聚类算法可以与 M. Kusner 论文中的 Word Mover 距离一起使用?

Which clustering algorithms can be used with Word Mover's Distance from M. Kusner's paper?

我是机器学习的新手,现在我对根据语义相似性进行文档聚类(不同长度的短文本)感兴趣(我只是想超越标准 TF/IDF 方法)。我阅读了论文 http://proceedings.mlr.press/v37/kusnerb15.pdf,其中解释了词嵌入的 Word Mover 距离。在论文中,他们将其用于分类。我现在的问题是——我可以将它用于集群吗?如果是这样,是否有描述这种用法的论文?

P.S.: 我基本上对考虑语义相似性的聚类感兴趣,所以即使是 word2vec 或 doc2vec 方法也可以完成这项工作——我只是找不到任何使用它们的论文在聚类问题中。

如果您有能力计算整个距离矩阵,那么您可以进行层次聚类,例如。

今天很容易找到接受任何距离并使用阈值的其他聚类。这些甚至可以使用边界来提高性能。但他们是否会处理此类数据并不明显。