Gensim数据解析

Gensim data parsing

好的,这是一个具体的问题,就是在向Gensimpython库提供训练数据时,需要什么样的数据结构。特别是,必须对提供的任何数据中的文档构成有一个隐含的理解(否则它不会,例如,能够找到 tf-idf)。

对于一个具体的例子,维基百科转储用于库的教程中用于培训目的。 XML 中提供了维基百科转储。是什么让 gensim 了解单独的文档?这种理解是基于 xml 元素的嵌套吗?

这在前两个 Gensim 教程中得到了回答,Corpora and Vector Spaces Tutorial and Corpora and Vector Spaces。他们通过代码示例引导您完成所有步骤。

他们从一个 documents 对象(字符串列表)开始,展示了如何从中创建字典和语料库,以及如何使用字典和语料库创建模型,例如 LDA 和大规模集成电路

Experiments on the English Wikipedia tutorial example code, the dictionary and the corpus are read from serialized files. I recommend to go through all the tutorials 和示例代码中所示。

Gensim 与数据源无关。对于它的大部分功能,它只需要一个句子列表作为文档。实际上这些文档甚至可以由虚构的单词组成(即使用 word2vec on graphs)。

为了解析维基百科转储和其他常见语料库类型,它提供了 some utility classes. Check its API docscorpora.*