使用 GLOVEs pretrained glove.6B.50.txt 作为词嵌入 R 的基础

Using GLOVEs pretrained glove.6B.50.txt as a basis for word embeddings R

我正在尝试使用 r 中的 GLOVE 将文本数据转换为向量。我的计划是对一个句子的词向量进行平均,但我似乎无法进入词向量化阶段。我已经从 https://nlp.stanford.edu/projects/glove/ 下载了 glove.6b.50.txt 文件及其父 zip 文件,并且我访问了 text2vec 的网站并尝试 运行 通过他们加载维基百科数据的示例。但我不认为它是我正在寻找的(或者我可能不理解它)。我正在尝试将预训练嵌入加载到模型中,这样如果我有一个句子(比如 'I love lamp'),我可以遍历该句子并将每个词转换为一个向量,然后我可以对其进行平均(将未知词转换为zeros) 和类似 vectorize(word) 的函数。我如何将预训练嵌入作为我的语料库加载到手套模型中(这是我实现目标所需要做的吗?)

我终于明白了。嵌入矩阵就是我所需要的。它已经将词汇中的单词作为行名,因此我使用它们来确定每个单词的向量。

现在我需要弄清楚如何更新这些向量!