如何在我自己的 R 语料库上训练 word2vec 模型?

How can I train the word2vec model on my own corpus in R?

我想使用 R 中的 rword2vec 包在我自己的语料库上训练 word2vec 模型。

用于训练模型的 word2vec 函数需要一个 train_file。 R 中包的文档只是指出这是训练文本数据,但没有具体说明如何创建它。

GitHub上例子中使用的训练数据可以在这里下载: http://mattmahoney.net/dc/text8.zip。我不知道它是什么类型的文件。

我查看了 rword2vec GitHub page and checked out the official word2vec page on Google Code 上的 README 文件。

我的语料库是一个 .csv 文件,包含大约 68,000 个文档。文件大小约为 300MB。我意识到在这种规模的语料库上训练模型可能需要很长时间(或者不可行),但我愿意在语料库的一个子集上训练它。我只是不知道如何创建函数所需的train_file

解压text8后,可以用文本编辑器打开。您会看到这是一份很长的文件。您将需要决定要将 68,000 份文档中的多少份用于培训,以及是否要将它们连接在一起或将它们作为单独的文档保存。参见 https://datascience.stackexchange.com/questions/11077/using-several-documents-with-word2vec