制作维基百科链接树
Making a tree of Wikipedia links
我正在尝试使用维基百科 API 获取所有页面上的所有链接。目前我正在使用
但这好像不是从第一篇开始到最后一篇结束的。我怎样才能让它生成所有页面及其所有链接?
英文维基百科拥有大约 10.5 亿个内部链接。考虑到 list=alllinks
模块每个请求有 500 个链接的限制,从 API.
获取所有链接是不现实的
相反,您可以下载 Wikipedia's database dumps 并使用它们。具体来说,您需要 pagelinks
转储,其中包含有关链接本身的信息,并且很可能还需要 page
转储,用于将页面 ID 映射到页面标题。
我知道这是一个老问题,但如果其他人正在搜索并找到这个问题,我强烈建议查看 Wikicrush 以提取所有维基百科的 link 图。它产生一个相对紧凑的表示,可用于非常快速地遍历 links.
我正在尝试使用维基百科 API 获取所有页面上的所有链接。目前我正在使用
但这好像不是从第一篇开始到最后一篇结束的。我怎样才能让它生成所有页面及其所有链接?
英文维基百科拥有大约 10.5 亿个内部链接。考虑到 list=alllinks
模块每个请求有 500 个链接的限制,从 API.
相反,您可以下载 Wikipedia's database dumps 并使用它们。具体来说,您需要 pagelinks
转储,其中包含有关链接本身的信息,并且很可能还需要 page
转储,用于将页面 ID 映射到页面标题。
我知道这是一个老问题,但如果其他人正在搜索并找到这个问题,我强烈建议查看 Wikicrush 以提取所有维基百科的 link 图。它产生一个相对紧凑的表示,可用于非常快速地遍历 links.