word2vec 包中函数 word2vec 的输入文件格式是什么?
What is the input file format for the function word2vec from package word2vec?
我正在尝试使用包 word2vec (https://pypi.org/project/word2vec/) 进行自己的词嵌入。
但是,我找不到函数 "word2vec".
的输入文件的文件格式
我尝试了 .txt 格式和 pickle 文件,但都不起作用。
例如,corpus.txt 是用 Windows 记事本制作的,其中包含 "I am a foo bar corpus test"
import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)
我本以为:
Vocab size: 7
Words in train file: 7
如此处示例所示:https://nbviewer.jupyter.org/github/danielfrg/word2vec/blob/master/examples/word2vec.ipynb
但只得到了
Vocab size: 1
Words in train file: 0
有谁知道这个函数接受哪个 type/format 文件?
提前致谢!
你的特定结果很有可能是因为大多数 word2vec 实现会丢弃所有出现次数少于某个 minimum-count 值的词,通常是 5。(Word2Vec 不会创建好的此类稀有词的向量,它们的存在通常会干扰其他更常见词的更好向量,因此在实际大小的语料库中丢弃它们通常是个好主意。)
所以一个玩具大小的输入文件,只有 7 个词,每个词出现一次,只留下(可能)一个合成词。
因为 PyPI 包似乎是 Google 最初发布的 word2vec.c
代码的薄包装,您可能可以参考 that code 以了解有关 [=24] 的更多详细信息=].
但是,您也可以使用 Word2Vec
implementation in the Gensim library - 使用 Python 时更常见的选择,具有更多的文档和灵活性。
我正在尝试使用包 word2vec (https://pypi.org/project/word2vec/) 进行自己的词嵌入。 但是,我找不到函数 "word2vec".
的输入文件的文件格式我尝试了 .txt 格式和 pickle 文件,但都不起作用。
例如,corpus.txt 是用 Windows 记事本制作的,其中包含 "I am a foo bar corpus test"
import word2vec
word2vec.word2vec("corpus.txt", "corpus.bin", size=100, verbose=True)
我本以为:
Vocab size: 7
Words in train file: 7
如此处示例所示:https://nbviewer.jupyter.org/github/danielfrg/word2vec/blob/master/examples/word2vec.ipynb
但只得到了
Vocab size: 1
Words in train file: 0
有谁知道这个函数接受哪个 type/format 文件?
提前致谢!
你的特定结果很有可能是因为大多数 word2vec 实现会丢弃所有出现次数少于某个 minimum-count 值的词,通常是 5。(Word2Vec 不会创建好的此类稀有词的向量,它们的存在通常会干扰其他更常见词的更好向量,因此在实际大小的语料库中丢弃它们通常是个好主意。)
所以一个玩具大小的输入文件,只有 7 个词,每个词出现一次,只留下(可能)一个合成词。
因为 PyPI 包似乎是 Google 最初发布的 word2vec.c
代码的薄包装,您可能可以参考 that code 以了解有关 [=24] 的更多详细信息=].
但是,您也可以使用 Word2Vec
implementation in the Gensim library - 使用 Python 时更常见的选择,具有更多的文档和灵活性。