如何从 Wiki 导出转储
How to export dumps from a Wiki
我一直在寻找如何抓取一些维基(即 https://fr.vikidia.org/ and https://fr.wikimini.org/)来为 NLP 创建纯文本语料库。
据我所知,为维基百科执行此操作通常是通过从 https://dumps.wikimedia.org/ and using a parser tool such as WikiExtractor 下载转储来完成的,但似乎我无法从转储网站上的这些维基获取转储,对吗?
根据 MediawikiAPI 的 Help:Export 页面,到目前为止我找到了两个部分答案:
1) 为这些 wiki 配置 MediawikiAPI 并使用带有选项 -search
的脚本 listpages.py
问题:我一次获取每篇文章的10,000页内容保存在一个文件中,但这些内容保存为带有模板的格式化文本而不是XML,这使得它无法用于 WikiExtractor,因此我无法在此处访问纯文本。
2) 按照 these instructions 从每个 wiki 的页面 Special:Allpages 获取页面名称列表,将它们粘贴到他们的页面 Special:Export 并生成一个 XML转储
问题:这次我得到了一个被WikiExtractor正确解析的格式,结果是纯文本,但是我需要为Special:Allpages的数百页重现这个操作每个wiki,根本不实用。
你知道我如何设法从 wiki 转到纯文本吗?
我一直在寻找如何抓取一些维基(即 https://fr.vikidia.org/ and https://fr.wikimini.org/)来为 NLP 创建纯文本语料库。
据我所知,为维基百科执行此操作通常是通过从 https://dumps.wikimedia.org/ and using a parser tool such as WikiExtractor 下载转储来完成的,但似乎我无法从转储网站上的这些维基获取转储,对吗?
根据 MediawikiAPI 的 Help:Export 页面,到目前为止我找到了两个部分答案:
1) 为这些 wiki 配置 MediawikiAPI 并使用带有选项 -search
的脚本 listpages.py问题:我一次获取每篇文章的10,000页内容保存在一个文件中,但这些内容保存为带有模板的格式化文本而不是XML,这使得它无法用于 WikiExtractor,因此我无法在此处访问纯文本。
2) 按照 these instructions 从每个 wiki 的页面 Special:Allpages 获取页面名称列表,将它们粘贴到他们的页面 Special:Export 并生成一个 XML转储
问题:这次我得到了一个被WikiExtractor正确解析的格式,结果是纯文本,但是我需要为Special:Allpages的数百页重现这个操作每个wiki,根本不实用。
你知道我如何设法从 wiki 转到纯文本吗?