微调手套嵌入

Fine-tuning Glove Embeddings

有没有人尝试在特定领域的语料库上微调 Glove 嵌入
微调 word2vec 嵌入已证明在各种 NLP 任务中对我来说非常有效,但我想知道是否在我的特定领域语料库上生成共现矩阵,并训练 glove 嵌入(初始化为语料库上的预训练嵌入)会产生类似的改进。

我自己也在尝试做同样的事情。你可以试试 mittens.

他们已经成功地为它搭建了一个框架。 Christopher D. Manning(GloVe 的合著者)与之相关。

word2vecGlove 是一种用于生成词嵌入的技术,即将文本(一组句子)建模为计算机可读向量。

虽然 word2vec 在本地上下文(相邻词)上进行训练,但 Glove 会在整个文本或语料库中寻找同时出现的词,其方法更全球化。

word2vec

word2vec 有两种主要方法,其中算法循环遍历句子的世界。对于每个当前单词w,它将尝试预测

  • 来自w的相邻词及其上下文,这就是Skip-Gram方法

  • w 从上下文来看,这是 CBOW 方法

因此,word2vec 将为具有相似上下文的单词生成相似的嵌入,例如单数名词及其复数形式的名词,或两个同义词。

手套

Glove 模型的主要直觉是简单的观察,即词与词共现概率的比率有可能编码某种形式的意义。换句话说,嵌入是基于目标词对之间距离的计算。该模型通过分析这两个目标词与其他一些探测词(上下文词)的共现来计算文本中两个目标词之间的距离。

https://nlp.stanford.edu/projects/glove/

例如,考虑目标词“冰”和“蒸汽”与词汇表中的各种探测词的共现概率。以下是来自 60 亿词语料库的一些实际概率:

正如人们所料,“冰”与“固体”同时出现的频率高于与“气体”同时出现的频率,而“蒸汽”与“气体”同时出现的频率高于与“固体”一起出现的频率.这两个词经常与它们共享的属性“水”同时出现,并且很少与不相关的词“时尚”同时出现。只有在概率比中,来自非歧视性词(如“water”和“fashion”)的噪声才会被抵消,因此大值(远大于 1)与“ice”的特定属性相关性很好,而小值(远小于比 1) 与“蒸汽”的特定属性密切相关。通过这种方式,概率比编码了一些与热力学相的抽象概念相关的粗略形式的含义。

另外,Glove非常擅长类比,在word2vec数据集上表现不错