Gensim数据解析
Gensim data parsing
好的,这是一个具体的问题,就是在向Gensimpython库提供训练数据时,需要什么样的数据结构。特别是,必须对提供的任何数据中的文档构成有一个隐含的理解(否则它不会,例如,能够找到 tf-idf)。
对于一个具体的例子,维基百科转储用于库的教程中用于培训目的。 XML 中提供了维基百科转储。是什么让 gensim 了解单独的文档?这种理解是基于 xml 元素的嵌套吗?
这在前两个 Gensim 教程中得到了回答,Corpora and Vector Spaces Tutorial and Corpora and Vector Spaces。他们通过代码示例引导您完成所有步骤。
他们从一个 documents
对象(字符串列表)开始,展示了如何从中创建字典和语料库,以及如何使用字典和语料库创建模型,例如 LDA 和大规模集成电路
如 Experiments on the English Wikipedia tutorial example code, the dictionary and the corpus are read from serialized files. I recommend to go through all the tutorials 和示例代码中所示。
Gensim 与数据源无关。对于它的大部分功能,它只需要一个句子列表作为文档。实际上这些文档甚至可以由虚构的单词组成(即使用 word2vec on graphs)。
为了解析维基百科转储和其他常见语料库类型,它提供了 some utility classes. Check its API docs 个 corpora.*
好的,这是一个具体的问题,就是在向Gensimpython库提供训练数据时,需要什么样的数据结构。特别是,必须对提供的任何数据中的文档构成有一个隐含的理解(否则它不会,例如,能够找到 tf-idf)。
对于一个具体的例子,维基百科转储用于库的教程中用于培训目的。 XML 中提供了维基百科转储。是什么让 gensim 了解单独的文档?这种理解是基于 xml 元素的嵌套吗?
这在前两个 Gensim 教程中得到了回答,Corpora and Vector Spaces Tutorial and Corpora and Vector Spaces。他们通过代码示例引导您完成所有步骤。
他们从一个 documents
对象(字符串列表)开始,展示了如何从中创建字典和语料库,以及如何使用字典和语料库创建模型,例如 LDA 和大规模集成电路
如 Experiments on the English Wikipedia tutorial example code, the dictionary and the corpus are read from serialized files. I recommend to go through all the tutorials 和示例代码中所示。
Gensim 与数据源无关。对于它的大部分功能,它只需要一个句子列表作为文档。实际上这些文档甚至可以由虚构的单词组成(即使用 word2vec on graphs)。
为了解析维基百科转储和其他常见语料库类型,它提供了 some utility classes. Check its API docs 个 corpora.*