如何找到与命名实体相关的所有维基百科页面?
How to find all Wikipedia pages related to a named entity?
给定一段文本,我要查找与文本中提到的命名实体相关的所有维基百科页面的链接。有可靠的方法吗?
例如,考虑文本,
Mark Elliot Zuckerberg is an American internet entrepreneur and
philanthropist.
" 鉴于此,我正在使用以下链接查看输出:
- https://en.wikipedia.org/wiki/Mark_Zuckerberg
- https://en.wikipedia.org/wiki/Americans
- https://en.wikipedia.org/wiki/Internet
- https://en.wikipedia.org/wiki/Entrepreneurship
- https://en.wikipedia.org/wiki/Philanthropy
考虑到 NLP 的当前状态,这是否可能?
非常感谢!
您要解决的问题是Entity Linking。有很多学术论文讨论了这个问题的解决方案,但只有少数提供了实现。
OpenTapioka from Oxford has an open source implementation and an online demo.
SWAT from the University of Pisa has a publically available API.
正如@Jindřich 告诉您的那样,您无疑应该看看实体链接,有时还应该看看(命名)实体消歧或 "wikification"。学术界已经在这个主题上做了很多工作(看看 TAC、KBP、NEEL 挑战)。
许多软件都这样做,仅举几例:
请注意,结果在很大程度上取决于您要处理的文本类型,您可能需要在使用软件之前评估软件的可靠性。
给定一段文本,我要查找与文本中提到的命名实体相关的所有维基百科页面的链接。有可靠的方法吗?
例如,考虑文本,
Mark Elliot Zuckerberg is an American internet entrepreneur and philanthropist.
" 鉴于此,我正在使用以下链接查看输出:
- https://en.wikipedia.org/wiki/Mark_Zuckerberg
- https://en.wikipedia.org/wiki/Americans
- https://en.wikipedia.org/wiki/Internet
- https://en.wikipedia.org/wiki/Entrepreneurship
- https://en.wikipedia.org/wiki/Philanthropy
考虑到 NLP 的当前状态,这是否可能? 非常感谢!
您要解决的问题是Entity Linking。有很多学术论文讨论了这个问题的解决方案,但只有少数提供了实现。
OpenTapioka from Oxford has an open source implementation and an online demo.
SWAT from the University of Pisa has a publically available API.
正如@Jindřich 告诉您的那样,您无疑应该看看实体链接,有时还应该看看(命名)实体消歧或 "wikification"。学术界已经在这个主题上做了很多工作(看看 TAC、KBP、NEEL 挑战)。
许多软件都这样做,仅举几例:
请注意,结果在很大程度上取决于您要处理的文本类型,您可能需要在使用软件之前评估软件的可靠性。