术语级别聚类的最佳功能

Question

目前，我正在从事一个与挖掘 Twitter 数据相关的项目。该项目的目的是找到可用于表示推文集的主题。为了帮助我们找到主题，我们提出了进行术语级别聚类的想法。这些术语是已经使用某些 TextMining 工具提取的一些重要概念。那么，我的主要问题是，定义术语相似性的最佳特征是什么？在这个项目中，由于数据量不够，我正在做无监督学习，即使用k-means算法进行聚类。我确实有一些提取的功能。据我了解，了解术语的语义（而非实际）含义的一种方法是查看提及该术语的上下文。因此，我现在拥有的是术语的 WORD 和 POS 前后。例如：

I drink a cup of XYZ
She had a spoon of ABC yesterday.

通过查看前面的单词和 POS - XYZ 的 cup/NN 和 of/IN 以及 ABC 的 spoon/NN 和 of/IN - 我知道 XYZ 和 ABC 可能是液体 material 或成分。好吧，这听起来很天真，事实上，我并没有得到好的集群。除了前面的特性之外，我还有一些我认为是特性的命名实体类型。例如，实体类型，如人物、位置、问题（医学）、MEDTERM 等。

那么，术语级聚类的共同特征是什么？如有任何意见和建议，我们将不胜感激。我愿意接受任何指导，例如论文、link 等。谢谢

编辑：除了这些特征之外，我还提取了每个术语的中心名词并将其视为我的特征之一。我正在考虑在多词项的情况下使用中心名词。

Answer 1

好吧，让我看看我是否正确理解了您的需求。您已经 extracted/found 想要作为聚类中心的术语，现在您想要找到与它们相似的所有术语，以便将它们分组到正确的聚类中？

一般来说，你需要定义一个相似性度量（距离），这里是要点，你想要相似性距离来衡量或确定什么。如果你正在寻找术语与术语的相似性，那么你可以尝试像 Levenshtein 距离这样的东西，但是如果你想找到的是上下文相似的术语，即使它们以非常不同的方式书写，但可能意味着同样的事情，这与 Levenshtein 不同，很难做到。

请务必记住，您需要衡量相似度才能找到相似的术语。我看到你称之为一些命名实体类型的特征，通常 k-means 在处理非连续数据时不好。

术语级别聚类的最佳功能

Best Features for Term Level Clustering

twitter

cluster-analysis

text-mining

feature-extraction

k-means