如何在 NLP 中找到相似的名词短语?
How to find similar noun phrases in NLP?
有没有办法识别相似的名词短语。有些人建议使用基于模式的方法,例如 X as Y
表达式:
Usain Bolt as Sprint King
Liverpool as Reds
有很多技术可以为给定的实体找到替代名称,
使用以下模式:
X also known as Y
X also titled as Y
扫描大量文档(例如维基百科或新闻论文文章)是一种方法。
还有其他替代方案,我记得的一个是使用维基百科内部链接结构,例如,通过探索文章之间的重定向链接。您可以从此处下载包含重定向列表的文件:https://wiki.dbpedia.org/Downloads2015-04 并浏览该文件,您可以找到实体的替代 names/synonyms,例如:
Kennedy_Centre -> John_F._Kennedy_Center_for_the_Performing_Arts>
Lord_Alton_of_Liverpool -> David_Alton,_Baron_Alton_of_Liverpool
Indiana_jones_2 -> Indiana_Jones_and_the_Temple_of_Doom
您可以做的另一件事是结合这两种技术,例如,查找 Indiana Jones
和 Indiana_Jones_and_the_Temple_of_Doom
都出现并且相距不超过 4 或5 个代币。您可能会找到类似 also titled as
的模式,然后您可以使用这些模式来查找更多 synonyms/alternative 个名称。
有没有办法识别相似的名词短语。有些人建议使用基于模式的方法,例如 X as Y
表达式:
Usain Bolt as Sprint King
Liverpool as Reds
有很多技术可以为给定的实体找到替代名称, 使用以下模式:
X also known as Y
X also titled as Y
扫描大量文档(例如维基百科或新闻论文文章)是一种方法。
还有其他替代方案,我记得的一个是使用维基百科内部链接结构,例如,通过探索文章之间的重定向链接。您可以从此处下载包含重定向列表的文件:https://wiki.dbpedia.org/Downloads2015-04 并浏览该文件,您可以找到实体的替代 names/synonyms,例如:
Kennedy_Centre -> John_F._Kennedy_Center_for_the_Performing_Arts>
Lord_Alton_of_Liverpool -> David_Alton,_Baron_Alton_of_Liverpool
Indiana_jones_2 -> Indiana_Jones_and_the_Temple_of_Doom
您可以做的另一件事是结合这两种技术,例如,查找 Indiana Jones
和 Indiana_Jones_and_the_Temple_of_Doom
都出现并且相距不超过 4 或5 个代币。您可能会找到类似 also titled as
的模式,然后您可以使用这些模式来查找更多 synonyms/alternative 个名称。