"EOFError: Ran out of input" while use Wikipedia Extractor as a parser for Wikipedia Data Dump File

"EOFError: Ran out of input" while use Wikipedia Extractor as a parser for Wikipedia Data Dump File

我尝试使用“Wikipedia Extractor(https://github.com/attardi/wikiextractor) 将 bz2 转换为文本。我下载了带有 bz2 扩展名的维基百科转储,然后在命令行上使用了这行代码:

python Wikiextractor.py -b 85M -o 提取D:\wikiextractor-master\wikiextractor\zhwiki-latest-pages-articles.xml.bz2

完成页面预处理后,出现如下错误: enter image description here

我该如何解决这个问题?

我遇到了这个问题。可能是由 Windows 的 StringIO 问题引起的。 我在 Linux (WSL) 的 Windows 子系统上重新 运行 它并且运行良好。