Gensim Word Embedding语料库结构

Question

我想使用 Gensim 训练 word2vec 模型。我预处理了我的语料库，它由特定报纸的数十万篇文章组成。我对它们进行了预处理（小写、词形还原、删除停用词和标点符号等），然后制作了一个列表列表，其中每个元素都是一个单词列表。

corpus = [['first', 'sentence', 'second', 'dictum', 'third', 'saying', 'last', 'claim'],
          ['first', 'adage', 'second', 'sentence', 'third', 'judgment', 'last', 'pronouncement']]

我想知道这样做是否正确，或者应该像下面这样：

corpus = [['first', 'sentence'], ['second', 'dictum'], ['third', 'saying'], ['last', 'claim'], ['first', 'adage'], ['second', 'sentence'], ['third', 'judgment'], ['last', 'pronouncement']]

Answer 1

两者都起不到作用。

但在第二种情况下，无论您的 window 参数有多大，所有文本的长度都不超过 2 个标记这一事实意味着单词只会影响它们的直接邻居。这可能不是你想要的。

较长的文本并没有真正的害处，只是要注意：

所有在同一个列表中的标记将出现在彼此的 window 大小的邻域中 - 所以不要运行单词放在一起，这不应该暗示任何实际用途。（但是，在足够大的语料库中，即使是一些运行不相关的文本的噪音也不会产生太大的影响，被大量文本中的真实关系所淹没。）
每个文本的长度不应超过 10,000 个标记，因为内部实施限制会导致忽略超出该限制的任何标记。

Gensim Word Embedding语料库结构

Structure of Gensim Word Embedding corpus

corpus

gensim

word2vec

word-embedding