AdaGram.jl 上的训练文本问题
Problems in training text on AdaGram.jl
我是 Julia 编程语言的新手。我正在尝试在我的机器上安装 Adaptive Skip-gram (AdaGram) 模型。我面临以下问题。在训练模型之前,我们需要标记化文件和字典文件。现在我的问题是,应该为 tokenize.sh 和 dictionary.sh 提供什么输入。请让我知道生成输出文件的实际方式及其扩展名。
我指的是 link 网站:https://github.com/sbos/AdaGram.jl。
这与 https://code.google.com/p/word2vec/
完全相似
该软件包提供了一些 shell 脚本来预处理数据和拟合模型:
您必须从 shell 调用它们,即在 Julia 之外。
# Install the package
julia -e 'Pkg.clone("https://github.com/sbos/AdaGram.jl.git")'
julia -e 'Pkg.build("AdaGram")'
# Download some text
wget http://www.gutenberg.org/ebooks/100.txt.utf-8
# Tokenize the text, and count the words
~/.julia/v0.3/AdaGram/utils/tokenize.sh 100.txt.utf-8 text.txt
~/.julia/v0.3/AdaGram/utils/dictionary.sh text.txt dictionary.txt
# Train the model
~/.julia/v0.3/AdaGram/train.sh text.txt dictionary.txt model
然后您可以使用来自 Julia 的模型:
using AdaGram
vm, dict = load_model("model");
expected_pi(vm, dict.word2id["hamlet"])
nearest_neighbors(vm, dict, "hamlet", 1, 10)
我是 Julia 编程语言的新手。我正在尝试在我的机器上安装 Adaptive Skip-gram (AdaGram) 模型。我面临以下问题。在训练模型之前,我们需要标记化文件和字典文件。现在我的问题是,应该为 tokenize.sh 和 dictionary.sh 提供什么输入。请让我知道生成输出文件的实际方式及其扩展名。
我指的是 link 网站:https://github.com/sbos/AdaGram.jl。 这与 https://code.google.com/p/word2vec/
完全相似该软件包提供了一些 shell 脚本来预处理数据和拟合模型: 您必须从 shell 调用它们,即在 Julia 之外。
# Install the package
julia -e 'Pkg.clone("https://github.com/sbos/AdaGram.jl.git")'
julia -e 'Pkg.build("AdaGram")'
# Download some text
wget http://www.gutenberg.org/ebooks/100.txt.utf-8
# Tokenize the text, and count the words
~/.julia/v0.3/AdaGram/utils/tokenize.sh 100.txt.utf-8 text.txt
~/.julia/v0.3/AdaGram/utils/dictionary.sh text.txt dictionary.txt
# Train the model
~/.julia/v0.3/AdaGram/train.sh text.txt dictionary.txt model
然后您可以使用来自 Julia 的模型:
using AdaGram
vm, dict = load_model("model");
expected_pi(vm, dict.word2id["hamlet"])
nearest_neighbors(vm, dict, "hamlet", 1, 10)