如何从 Wiki 导出转储

How to export dumps from a Wiki

我一直在寻找如何抓取一些维基(即 https://fr.vikidia.org/ and https://fr.wikimini.org/)来为 NLP 创建纯文本语料库。

据我所知,为维基百科执行此操作通常是通过从 https://dumps.wikimedia.org/ and using a parser tool such as WikiExtractor 下载转储来完成的,但似乎我无法从转储网站上的这些维基获取转储,对吗?

根据 MediawikiAPI 的 Help:Export 页面,到目前为止我找到了两个部分答案:

1) 为这些 wiki 配置 MediawikiAPI 并使用带有选项 -search

的脚本 listpages.py

问题:我一次获取每篇文章的10,000页内容保存在一个文件中,但这些内容保存为带有模板的格式化文本而不是XML,这使得它无法用于 WikiExtractor,因此我无法在此处访问纯文本。

2) 按照 these instructions 从每个 wiki 的页面 Special:Allpages 获取页面名称列表,将它们粘贴到他们的页面 Special:Export 并生成一个 XML转储

问题:这次我得到了一个被WikiExtractor正确解析的格式,结果是纯文本,但是我需要为Special:Allpages的数百页重现这个操作每个wiki,根本不实用。

你知道我如何设法从 wiki 转到纯文本吗?

使用export API with the allpages generatorhttps://en.wikipedia.org/w/api.php?action=query&generator=allpages&gaplimit=10&format=jsonfm&formatversion=2&export