微调手套嵌入

Fine-tuning Glove Embeddings

有没有人尝试在特定领域的语料库上微调 Glove 嵌入？
微调 word2vec 嵌入已证明在各种 NLP 任务中对我来说非常有效，但我想知道是否在我的特定领域语料库上生成共现矩阵，并训练 glove 嵌入（初始化为语料库上的预训练嵌入）会产生类似的改进。

我自己也在尝试做同样的事情。你可以试试 mittens.

他们已经成功地为它搭建了一个框架。 Christopher D. Manning（GloVe 的合著者）与之相关。

word2vec 和 Glove 是一种用于生成词嵌入的技术，即将文本（一组句子）建模为计算机可读向量。

虽然 word2vec 在本地上下文（相邻词）上进行训练，但 Glove 会在整个文本或语料库中寻找同时出现的词，其方法更全球化。

word2vec

word2vec 有两种主要方法，其中算法循环遍历句子的世界。对于每个当前单词w，它将尝试预测

来自w的相邻词及其上下文，这就是Skip-Gram方法
w 从上下文来看，这是 CBOW 方法

因此，word2vec 将为具有相似上下文的单词生成相似的嵌入，例如单数名词及其复数形式的名词，或两个同义词。

手套

Glove 模型的主要直觉是简单的观察，即词与词共现概率的比率有可能编码某种形式的意义。换句话说，嵌入是基于目标词对之间距离的计算。该模型通过分析这两个目标词与其他一些探测词（上下文词）的共现来计算文本中两个目标词之间的距离。

https://nlp.stanford.edu/projects/glove/

例如，考虑目标词“冰”和“蒸汽”与词汇表中的各种探测词的共现概率。以下是来自 60 亿词语料库的一些实际概率：

正如人们所料，“冰”与“固体”同时出现的频率高于与“气体”同时出现的频率，而“蒸汽”与“气体”同时出现的频率高于与“固体”一起出现的频率.这两个词经常与它们共享的属性“水”同时出现，并且很少与不相关的词“时尚”同时出现。只有在概率比中，来自非歧视性词（如“water”和“fashion”）的噪声才会被抵消，因此大值（远大于 1）与“ice”的特定属性相关性很好，而小值（远小于比 1) 与“蒸汽”的特定属性密切相关。通过这种方式，概率比编码了一些与热力学相的抽象概念相关的粗略形式的含义。

另外，Glove非常擅长类比，在word2vec数据集上表现不错

微调手套嵌入

Fine-tuning Glove Embeddings

nlp

machine-learning

word2vec

word-embedding