NER后如何用k-means算法做属性聚类？

How to use k-means algorithm to do attribute clustering after NER?

我正在阅读 this paper 和 3.2.1 小节中的第一段最后三行，

To map the named entity candidates to the standard attribute names, we employed the k-means algorithm to cluster the identified named entities by computing the cosine similarities between them based on Term Frequency–Inverse Document Frequency (TFIDF)."

谁能解释一下这是什么意思？如果可能，请举例说明实施方案。

我不完全确定他们的意思；最好的解决办法是直接询问论文的作者。但是似乎已经进行了聚类来做一些与entity linking.

相关的事情

实体链接是通过将文本中发现的命名实体与唯一标识（例如维基百科文章或数据库条目）进行匹配来消除歧义的过程。例如，"Washington" 可以链接到城市 "Washington, D.C"、州 "Washington" 或个人 "George Washington"。另一方面，字符串 "Stanford"、"Stanford University"、"Leland Stanford Junior University"、"LSJU"、"Stanford U."、"Stanford uni"、"University of Stanford"、Stanford.edu", "Stanfurd", 和 a few more 确实指的是同一机构。此信息不是由纯 NER 模型提供的，因为它们只能告诉你，例如在 I graduated from Stanford U. in 2010 中， Stanford U 是一所学校 - 但不是某所特定学校。

您可能想使用 NEL，因为 NER 模型仅预测 "Stanford U" 是教育机构的名称，或者 "TeslaMotors" 是公司的名称。然后NEL模型预测"Stanford U"真的意味着"Stanford University"，而"TeslaMotors"真的意味着"Tesla, inc."。所以你可以认为命名实体以某种方式链接 "refines" 已识别的实体。这很有用，例如，如果您使用找到的实体执行一些下游任务（例如简历分类），并且 "Tesla, inc." 出现在训练样本中，而 "TeslaMotors" 不出现。在这种情况下，命名实体链接将提高下游模型的泛化能力，因为在 NEL 之后，两个实体将以完全相同的方式处理。

然而，该论文的作者似乎没有针对所有特定领域实体（学校、学位、技能、工作职位等）的数据库，或者没有标记的数据集来训练实体链接模型。因此，他们不是经典的实体链接，而是将相似的实体合并到集群中，希望最终出现在同一集群中的字符串确实指代相同的身份。

这种方法可能看起来很粗糙，但总比没有链接要好，它可以为手动 labelling/linking 集群提供一个很好的起点，从而创建一个数据集来训练实体的监督模型正在链接。

NER后如何用k-means算法做属性聚类？

How to use k-means algorithm to do attribute clustering after NER?

nlp

machine-learning

named-entity-recognition

deep-learning