如何通过 MediaWiki API 获取维基百科的内容页面?

How to Get the Pageids and Titles of All Wikipedia's Content Pages Through MediaWiki API?

Wikipedia Statistics

上面的link表明英文维基百科有将近600万内容页。我如何使用 MediaWiki API 获取所有内容页面的 pageid 和标题?

params = {
    'action': 'query',
    'list': 'allpages',
    'gapfilterredir': 'nonredirects',
    'apnamespace': 0,
    'aplimit': 500,
    'format': 'json'
}

我试过这种API的格式,虽然我把'gapfilterredir'设置成'nonredirects',但是还是有一些跳转页面,抓取的条目也超过了600万

最好通过 dumps,但如果您真的想使用 API,您所展示的是正确的方法。统计数据不包括某些非常短的页面(没有内部 link 或句号的页面,如果我没记错的话),这就是数字不同的原因。