如何通过 MediaWiki API 获取维基百科的内容页面?
How to Get the Pageids and Titles of All Wikipedia's Content Pages Through MediaWiki API?
上面的link表明英文维基百科有将近600万内容页。我如何使用 MediaWiki API 获取所有内容页面的 pageid 和标题?
params = {
'action': 'query',
'list': 'allpages',
'gapfilterredir': 'nonredirects',
'apnamespace': 0,
'aplimit': 500,
'format': 'json'
}
我试过这种API的格式,虽然我把'gapfilterredir'设置成'nonredirects',但是还是有一些跳转页面,抓取的条目也超过了600万
最好通过 dumps,但如果您真的想使用 API,您所展示的是正确的方法。统计数据不包括某些非常短的页面(没有内部 link 或句号的页面,如果我没记错的话),这就是数字不同的原因。
上面的link表明英文维基百科有将近600万内容页。我如何使用 MediaWiki API 获取所有内容页面的 pageid 和标题?
params = {
'action': 'query',
'list': 'allpages',
'gapfilterredir': 'nonredirects',
'apnamespace': 0,
'aplimit': 500,
'format': 'json'
}
我试过这种API的格式,虽然我把'gapfilterredir'设置成'nonredirects',但是还是有一些跳转页面,抓取的条目也超过了600万
最好通过 dumps,但如果您真的想使用 API,您所展示的是正确的方法。统计数据不包括某些非常短的页面(没有内部 link 或句号的页面,如果我没记错的话),这就是数字不同的原因。