制作维基百科链接树

Making a tree of Wikipedia links

我正在尝试使用维基百科 API 获取所有页面上的所有链接。目前我正在使用

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

但这好像不是从第一篇开始到最后一篇结束的。我怎样才能让它生成所有页面及其所有链接?

英文维基百科拥有大约 10.5 亿个内部链接。考虑到 list=alllinks 模块每个请求有 500 个链接的限制,从 API.

获取所有链接是不现实的

相反,您可以下载 Wikipedia's database dumps 并使用它们。具体来说,您需要 pagelinks 转储,其中包含有关链接本身的信息,并且很可能还需要 page 转储,用于将页面 ID 映射到页面标题。

我知道这是一个老问题,但如果其他人正在搜索并找到这个问题,我强烈建议查看 Wikicrush 以提取所有维基百科的 link 图。它产生一个相对紧凑的表示,可用于非常快速地遍历 links.