word2vec 包中函数 word2vec 的输入文件格式是什么？

Question

我正在尝试使用包 word2vec (https://pypi.org/project/word2vec/) 进行自己的词嵌入。但是，我找不到函数 "word2vec".

的输入文件的文件格式

我尝试了 .txt 格式和 pickle 文件，但都不起作用。

例如，corpus.txt 是用 Windows 记事本制作的，其中包含 "I am a foo bar corpus test"

import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)

我本以为：

Vocab size: 7
Words in train file: 7

但只得到了

Vocab size: 1
Words in train file: 0

有谁知道这个函数接受哪个 type/format 文件？

提前致谢！

Answer 1

你的特定结果很有可能是因为大多数 word2vec 实现会丢弃所有出现次数少于某个 minimum-count 值的词，通常是 5。（Word2Vec 不会创建好的此类稀有词的向量，它们的存在通常会干扰其他更常见词的更好向量，因此在实际大小的语料库中丢弃它们通常是个好主意。）

所以一个玩具大小的输入文件，只有 7 个词，每个词出现一次，只留下（可能）一个合成词。

因为 PyPI 包似乎是 Google 最初发布的 word2vec.c 代码的薄包装，您可能可以参考 that code 以了解有关 [=24] 的更多详细信息=].

但是，您也可以使用 Word2Vec implementation in the Gensim library - 使用 Python 时更常见的选择，具有更多的文档和灵活性。

What is the input file format for the function word2vec from package word2vec?