gensim.corpora wikiCorpus 只能使用 bz2 文件吗?

does gensim.corpora wikiCorpus work only with bz2 file?

我正在尝试加载 wiki 转储 (.gz) 并在 gensim word2vec 中使用它。我在终端中使用 bzip2 将其转换为 bz2,但 Wikicorpus class 似乎拒绝该文件。有人可以向我解释如何以简单的方式从 wiki 转储中获取文本吗? 谢谢

Gensim 中的 WikiCorpus 实用程序 class 需要 pages-articles 转储,而不是仅包含摘要的不同转储。

要阅读其他格式,您需要编写自己的代码。

您可以尝试的一些事情:

  • 研究 source for the WikiCorpus class 并将其用作您自己代码的模型,调整它以从您的其他转储中读取不同的元素。
  • 使用一些其他实用程序,例如 command-line tool jq 或类似工具,将感兴趣的 XML 元素中的相关文本转储到一个纯文本文件中,您可以然后可以在 Python 中逐行阅读(进一步 preprocess/tokenize 甚至直接提供给 Gensim 的 LineSentence 助手 class)。