如何从 Wiki 导出转储

How to export dumps from a Wiki

我一直在寻找如何抓取一些维基（即 https://fr.vikidia.org/ and https://fr.wikimini.org/）来为 NLP 创建纯文本语料库。

据我所知，为维基百科执行此操作通常是通过从 https://dumps.wikimedia.org/ and using a parser tool such as WikiExtractor 下载转储来完成的，但似乎我无法从转储网站上的这些维基获取转储，对吗？

根据 MediawikiAPI 的 Help:Export 页面，到目前为止我找到了两个部分答案：

1) 为这些 wiki 配置 MediawikiAPI 并使用带有选项 -search

的脚本 listpages.py

问题：我一次获取每篇文章的10,000页内容保存在一个文件中，但这些内容保存为带有模板的格式化文本而不是XML，这使得它无法用于 WikiExtractor，因此我无法在此处访问纯文本。

2) 按照 these instructions 从每个 wiki 的页面 Special:Allpages 获取页面名称列表，将它们粘贴到他们的页面 Special:Export 并生成一个 XML转储

问题：这次我得到了一个被WikiExtractor正确解析的格式，结果是纯文本，但是我需要为Special:Allpages的数百页重现这个操作每个wiki，根本不实用。

你知道我如何设法从 wiki 转到纯文本吗？