word2vec 包中函数 word2vec 的输入文件格式是什么?

What is the input file format for the function word2vec from package word2vec?

我正在尝试使用包 word2vec (https://pypi.org/project/word2vec/) 进行自己的词嵌入。 但是,我找不到函数 "word2vec".

的输入文件的文件格式

我尝试了 .txt 格式和 pickle 文件,但都不起作用。

例如,corpus.txt 是用 Windows 记事本制作的,其中包含 "I am a foo bar corpus test"

import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)

我本以为:

Vocab size: 7
Words in train file: 7

如此处示例所示:https://nbviewer.jupyter.org/github/danielfrg/word2vec/blob/master/examples/word2vec.ipynb

但只得到了

Vocab size: 1
Words in train file: 0

有谁知道这个函数接受哪个 type/format 文件?

提前致谢!

你的特定结果很有可能是因为大多数 word2vec 实现会丢弃所有出现次数少于某个 minimum-count 值的词,通常是 5。(Word2Vec 不会创建好的此类稀有词的向量,它们的存在通常会干扰其他更常见词的更好向量,因此在实际大小的语料库中丢弃它们通常是个好主意。)

所以一个玩具大小的输入文件,只有 7 个词,每个词出现一次,只留下(可能)一个合成词。

因为 PyPI 包似乎是 Google 最初发布的 word2vec.c 代码的薄包装,您可能可以参考 that code 以了解有关 [=24] 的更多详细信息=].

但是,您也可以使用 Word2Vec implementation in the Gensim library - 使用 Python 时更常见的选择,具有更多的文档和灵活性。