术语级别聚类的最佳功能

Best Features for Term Level Clustering

目前,我正在从事一个与挖掘 Twitter 数据相关的项目。该项目的目的是找到可用于表示推文集的主题。为了帮助我们找到主题,我们提出了进行术语级别聚类的想法。这些术语是已经使用某些 TextMining 工具提取的一些重要概念。 那么,我的主要问题是,定义术语相似性的最佳特征是什么?在这个项目中,由于数据量不够,我正在做无监督学习,即使用k-means算法进行聚类。 我确实有一些提取的功能。据我了解,了解术语的语义(而非实际)含义的一种方法是查看提及该术语的上下文。因此,我现在拥有的是术语的 WORD 和 POS 前后。例如:

I drink a cup of XYZ
She had a spoon of ABC yesterday.

通过查看前面的单词和 POS - XYZ 的 cup/NN 和 of/IN 以及 ABC 的 spoon/NN 和 of/IN - 我知道 XYZ 和 ABC 可能是液体 material 或成分。好吧,这听起来很天真,事实上,我并没有得到好的集群。除了前面的特性之外,我还有一些我认为是特性的命名实体类型。例如,实体类型,如人物、位置、问题(医学)、MEDTERM 等。

那么,术语级聚类的共同特征是什么?如有任何意见和建议,我们将不胜感激。我愿意接受任何指导,例如论文、link 等。谢谢

编辑:除了这些特征之外,我还提取了每个术语的中心名词并将其视为我的特征之一。我正在考虑在多词项的情况下使用中心名词。

好吧,让我看看我是否正确理解了您的需求。您已经 extracted/found 想要作为聚类中心的术语,现在您想要找到与它们相似的所有术语,以便将它们分组到正确的聚类中?

一般来说,你需要定义一个相似性度量(距离),这里是要点,你想要相似性距离来衡量或确定什么。如果你正在寻找术语与术语的相似性,那么你可以尝试像 Levenshtein 距离这样的东西,但是如果你想找到的是上下文相似的术语,即使它们以非常不同的方式书写,但可能意味着同样的事情,这与 Levenshtein 不同,很难做到。

请务必记住,您需要衡量相似度才能找到相似的术语。我看到你称之为一些命名实体类型的特征,通常 k-means 在处理非连续数据时不好。