NER后如何用k-means算法做属性聚类?

How to use k-means algorithm to do attribute clustering after NER?

我正在阅读 this paper 和 3.2.1 小节中的第一段最后三行,

To map the named entity candidates to the standard attribute names, we employed the k-means algorithm to cluster the identified named entities by computing the cosine similarities between them based on Term Frequency–Inverse Document Frequency (TFIDF)."

谁能解释一下这是什么意思?如果可能,请举例说明实施方案。

我不完全确定他们的意思;最好的解决办法是直接询问论文的作者。但是似乎已经进行了聚类来做一些与entity linking.

相关的事情

实体链接是通过将文本中发现的命名实体与唯一标识(例如维基百科文章或数据库条目)进行匹配来消除歧义的过程。例如,"Washington" 可以链接到城市 "Washington, D.C"、州 "Washington" 或个人 "George Washington"。另一方面,字符串 "Stanford"、"Stanford University"、"Leland Stanford Junior University"、"LSJU"、"Stanford U."、"Stanford uni"、"University of Stanford"、Stanford.edu", "Stanfurd", 和 a few more 确实指的是同一机构。此信息不是由纯 NER 模型提供的,因为它们只能告诉你,例如在 I graduated from Stanford U. in 2010 中, Stanford U 是一所学校 - 但不是某所特定学校。

您可能想使用 NEL,因为 NER 模型仅预测 "Stanford U" 是教育机构的名称,或者 "TeslaMotors" 是公司的名称。然后NEL模型预测"Stanford U"真的意味着"Stanford University",而"TeslaMotors"真的意味着"Tesla, inc."。所以你可以认为命名实体以某种方式链接 "refines" 已识别的实体。这很有用,例如,如果您使用找到的实体执行一些下游任务(例如简历分类),并且 "Tesla, inc." 出现在训练样本中,而 "TeslaMotors" 不出现。在这种情况下,命名实体链接将提高下游模型的泛化能力,因为在 NEL 之后,两个实体将以完全相同的方式处理。

然而,该论文的作者似乎没有针对所有特定领域实体(学校、学位、技能、工作职位等)的数据库,或者没有标记的数据集来训练实体链接模型。因此,他们不是经典的实体链接,而是将相似的实体合并到集群中,希望最终出现在同一集群中的字符串确实指代相同的身份。

这种方法可能看起来很粗糙,但总比没有链接要好,它可以为手动 labelling/linking 集群提供一个很好的起点,从而创建一个数据集来训练实体的监督模型正在链接。