Gensim数据解析

Gensim data parsing

好的，这是一个具体的问题，就是在向Gensimpython库提供训练数据时，需要什么样的数据结构。特别是，必须对提供的任何数据中的文档构成有一个隐含的理解（否则它不会，例如，能够找到 tf-idf）。

对于一个具体的例子，维基百科转储用于库的教程中用于培训目的。 XML 中提供了维基百科转储。是什么让 gensim 了解单独的文档？这种理解是基于 xml 元素的嵌套吗？

这在前两个 Gensim 教程中得到了回答，Corpora and Vector Spaces Tutorial and Corpora and Vector Spaces。他们通过代码示例引导您完成所有步骤。

他们从一个 documents 对象（字符串列表）开始，展示了如何从中创建字典和语料库，以及如何使用字典和语料库创建模型，例如 LDA 和大规模集成电路

如 Experiments on the English Wikipedia tutorial example code, the dictionary and the corpus are read from serialized files. I recommend to go through all the tutorials 和示例代码中所示。

Gensim 与数据源无关。对于它的大部分功能，它只需要一个句子列表作为文档。实际上这些文档甚至可以由虚构的单词组成（即使用 word2vec on graphs）。

为了解析维基百科转储和其他常见语料库类型，它提供了 some utility classes. Check its API docs 个 corpora.*