Gensim Word Embedding语料库结构

Structure of Gensim Word Embedding corpus

我想使用 Gensim 训练 word2vec 模型。我预处理了我的语料库,它由特定报纸的数十万篇文章组成。我对它们进行了预处理(小写、词形还原、删除停用词和标点符号等),然后制作了一个列表列表,其中每个元素都是一个单词列表。

corpus = [['first', 'sentence', 'second', 'dictum', 'third', 'saying', 'last', 'claim'],
          ['first', 'adage', 'second', 'sentence', 'third', 'judgment', 'last', 'pronouncement']]

我想知道这样做是否正确,或者应该像下面这样:

corpus = [['first', 'sentence'], ['second', 'dictum'], ['third', 'saying'], ['last', 'claim'], ['first', 'adage'], ['second', 'sentence'], ['third', 'judgment'], ['last', 'pronouncement']]

两者都起不到作用。

但在第二种情况下,无论您的 window 参数有多大,所有文本的长度都不超过 2 个标记这一事实意味着单词只会影响它们的直接邻居。这可能不是你想要的。

较长的文本并没有真正的害处,只是要注意:

  • 所有在同一个列表中的标记将出现在彼此的 window 大小的邻域中 - 所以不要 运行 单词放在一起,这不应该暗示任何实际用途。 (但是,在足够大的语料库中,即使是一些 运行 不相关的文本的噪音也不会产生太大的影响,被大量文本中的真实关系所淹没。)
  • 每个文本的长度不应超过 10,000 个标记,因为内部实施限制会导致忽略超出该限制的任何标记。