如何获取指向特定维基数据实体的所有链接(锚文本)
how to get all links(anchor text) pointing to a particular wikidata entity
我正在研究一个 ML 问题,我需要所有 “锚文本” 的列表,其 link 指向 特定维基数据实体.
例如:对于所需的实体“Federal Reserve”(Q2044983)。该实体的链接可能出现在维基百科的许多页面(其他实体描述)中。这些 link 可能有不同的锚文本,如下所示-
- 'U.S. Federal Reserve Board'
- 'Fed'
- 'U.S. Federal Reserve System'
- 'Federal Reserve Bank'
等等
我需要提取上面的锚文本。
当前进度:我目前正在尝试 wikidata 获取这些,但没有成功。非常感谢任何帮助。
维基数据在这方面没有帮助,因为锚文本没有存储在其中。锚文本存储在页面内容(wikitext)中,只能通过获取相关页面的wikitext来访问。
第一步是从 link 的文章命名空间中获取所有页面的 link 到您感兴趣的页面。 (url)
link可以分为三种类型'transclusions'、'links'和'redirects'。
包含与模板而不是文章更相关。重定向可能会满足您的要求 (url)。如果您需要锚文本,那么您需要为每个 link 页面获取 wikitext 并通过搜索“[[<pagename or its redirects name>|<anchor text>]]
”
来查找该锚文本
可以通过 Mediawiki 访问 links 信息 api (url)
Alaska 示例页面的 wiki 文本信息通过 mediawiki API (url) 如果您没有找到该模式,则意味着 link 是通过出现在文末(美篇)可以忽略
我正在研究一个 ML 问题,我需要所有 “锚文本” 的列表,其 link 指向 特定维基数据实体.
例如:对于所需的实体“Federal Reserve”(Q2044983)。该实体的链接可能出现在维基百科的许多页面(其他实体描述)中。这些 link 可能有不同的锚文本,如下所示-
- 'U.S. Federal Reserve Board'
- 'Fed'
- 'U.S. Federal Reserve System'
- 'Federal Reserve Bank' 等等
我需要提取上面的锚文本。
当前进度:我目前正在尝试 wikidata 获取这些,但没有成功。非常感谢任何帮助。
维基数据在这方面没有帮助,因为锚文本没有存储在其中。锚文本存储在页面内容(wikitext)中,只能通过获取相关页面的wikitext来访问。
第一步是从 link 的文章命名空间中获取所有页面的 link 到您感兴趣的页面。 (url)
link可以分为三种类型'transclusions'、'links'和'redirects'。
包含与模板而不是文章更相关。重定向可能会满足您的要求 (url)。如果您需要锚文本,那么您需要为每个 link 页面获取 wikitext 并通过搜索“[[<pagename or its redirects name>|<anchor text>]]
”
可以通过 Mediawiki 访问 links 信息 api (url)
Alaska 示例页面的 wiki 文本信息通过 mediawiki API (url) 如果您没有找到该模式,则意味着 link 是通过出现在文末(美篇)可以忽略