我如何 运行 这个gensim代码?我需要一些文本文件吗?
How can I run this gensim code? Do I need some text files?
我昨天浏览了这个网站 (http://rutumulkar.com/blog/2015/word2vec/),作者使用了文件 text8-queen
。在他的脚本中,我注意到她没有指定文件的位置,我想知道他是如何 运行 的?我无法运行吗?有没有办法 运行 这个文件?谢谢。
脚本如下:
import gensim.models
import time
time1 = time.time()
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
modelbase = gensim.models.Word2Vec()
sentences2 = gensim.models.word2vec.Sentences("text8-queen")
modelbase.build_vocab(sentences2)
modelbase.train(sentences2)
modelbase.save_word2vec_format("wordvectors/model-text8-queen-only")
modelbase.accuracy("questions-words.txt")
model = gensim.models.Word2Vec()
sentences = gensim.models.word2vec.Sentences("text8-rest")
model.build_vocab(sentences)
model.train(sentences)
model.save_word2vec_format("model-text8-rest")
model.accuracy("questions-words.txt")
sentences2 = gensim.models.word2vec.Sentences("text8-queen")
model.update_vocab(sentences2)
model.train(sentences2)
model.save_word2vec_format("wordvectors/model-text8-queen")
model.accuracy("questions-words.txt")
model1 = gensim.models.Word2Vec()
sentences = gensim.models.word2vec.Sentences("text8-all")
model1.build_vocab(sentences)
model1.train(sentences)
model1.save_word2vec_format("wordvectors/model-text8-all")
model1.accuracy("questions-words.txt")
print ("total time: %s" % (time.time() - time1))
我的问题在行中:
sentences = gensim.models.word2vec.Sentences("text8-rest")
作者是怎么调用text8-rest
和text8-queen
的?我应该把这些文本文件 (text8-rest
, text8-queen
) 放在哪里?我必须指定文本文件的位置还是 python 能够检测到它?
如果你仔细阅读那个教程,它会说
NOTE: text8-rest, and text8-queen, and text8-all can be downloaded here: http://rutumulkar.com/data/onlinew2v/text8-files.zip.
我昨天浏览了这个网站 (http://rutumulkar.com/blog/2015/word2vec/),作者使用了文件 text8-queen
。在他的脚本中,我注意到她没有指定文件的位置,我想知道他是如何 运行 的?我无法运行吗?有没有办法 运行 这个文件?谢谢。
脚本如下:
import gensim.models
import time
time1 = time.time()
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
modelbase = gensim.models.Word2Vec()
sentences2 = gensim.models.word2vec.Sentences("text8-queen")
modelbase.build_vocab(sentences2)
modelbase.train(sentences2)
modelbase.save_word2vec_format("wordvectors/model-text8-queen-only")
modelbase.accuracy("questions-words.txt")
model = gensim.models.Word2Vec()
sentences = gensim.models.word2vec.Sentences("text8-rest")
model.build_vocab(sentences)
model.train(sentences)
model.save_word2vec_format("model-text8-rest")
model.accuracy("questions-words.txt")
sentences2 = gensim.models.word2vec.Sentences("text8-queen")
model.update_vocab(sentences2)
model.train(sentences2)
model.save_word2vec_format("wordvectors/model-text8-queen")
model.accuracy("questions-words.txt")
model1 = gensim.models.Word2Vec()
sentences = gensim.models.word2vec.Sentences("text8-all")
model1.build_vocab(sentences)
model1.train(sentences)
model1.save_word2vec_format("wordvectors/model-text8-all")
model1.accuracy("questions-words.txt")
print ("total time: %s" % (time.time() - time1))
我的问题在行中:
sentences = gensim.models.word2vec.Sentences("text8-rest")
作者是怎么调用text8-rest
和text8-queen
的?我应该把这些文本文件 (text8-rest
, text8-queen
) 放在哪里?我必须指定文本文件的位置还是 python 能够检测到它?
如果你仔细阅读那个教程,它会说
NOTE: text8-rest, and text8-queen, and text8-all can be downloaded here: http://rutumulkar.com/data/onlinew2v/text8-files.zip.