微调手套嵌入
Fine-tuning Glove Embeddings
有没有人尝试在特定领域的语料库上微调 Glove 嵌入?
微调 word2vec 嵌入已证明在各种 NLP 任务中对我来说非常有效,但我想知道是否在我的特定领域语料库上生成共现矩阵,并训练 glove 嵌入(初始化为语料库上的预训练嵌入)会产生类似的改进。
我自己也在尝试做同样的事情。你可以试试 mittens.
他们已经成功地为它搭建了一个框架。 Christopher D. Manning(GloVe 的合著者)与之相关。
word2vec
和 Glove
是一种用于生成词嵌入的技术,即将文本(一组句子)建模为计算机可读向量。
虽然 word2vec
在本地上下文(相邻词)上进行训练,但 Glove
会在整个文本或语料库中寻找同时出现的词,其方法更全球化。
word2vec
word2vec
有两种主要方法,其中算法循环遍历句子的世界。对于每个当前单词w
,它将尝试预测
来自w
的相邻词及其上下文,这就是Skip-Gram
方法
w
从上下文来看,这是 CBOW
方法
因此,word2vec
将为具有相似上下文的单词生成相似的嵌入,例如单数名词及其复数形式的名词,或两个同义词。
手套
Glove
模型的主要直觉是简单的观察,即词与词共现概率的比率有可能编码某种形式的意义。换句话说,嵌入是基于目标词对之间距离的计算。该模型通过分析这两个目标词与其他一些探测词(上下文词)的共现来计算文本中两个目标词之间的距离。
https://nlp.stanford.edu/projects/glove/
例如,考虑目标词“冰”和“蒸汽”与词汇表中的各种探测词的共现概率。以下是来自 60 亿词语料库的一些实际概率:
正如人们所料,“冰”与“固体”同时出现的频率高于与“气体”同时出现的频率,而“蒸汽”与“气体”同时出现的频率高于与“固体”一起出现的频率.这两个词经常与它们共享的属性“水”同时出现,并且很少与不相关的词“时尚”同时出现。只有在概率比中,来自非歧视性词(如“water”和“fashion”)的噪声才会被抵消,因此大值(远大于 1)与“ice”的特定属性相关性很好,而小值(远小于比 1) 与“蒸汽”的特定属性密切相关。通过这种方式,概率比编码了一些与热力学相的抽象概念相关的粗略形式的含义。
另外,Glove非常擅长类比,在word2vec数据集上表现不错
有没有人尝试在特定领域的语料库上微调 Glove 嵌入?
微调 word2vec 嵌入已证明在各种 NLP 任务中对我来说非常有效,但我想知道是否在我的特定领域语料库上生成共现矩阵,并训练 glove 嵌入(初始化为语料库上的预训练嵌入)会产生类似的改进。
我自己也在尝试做同样的事情。你可以试试 mittens.
他们已经成功地为它搭建了一个框架。 Christopher D. Manning(GloVe 的合著者)与之相关。
word2vec
和 Glove
是一种用于生成词嵌入的技术,即将文本(一组句子)建模为计算机可读向量。
虽然 word2vec
在本地上下文(相邻词)上进行训练,但 Glove
会在整个文本或语料库中寻找同时出现的词,其方法更全球化。
word2vec
word2vec
有两种主要方法,其中算法循环遍历句子的世界。对于每个当前单词w
,它将尝试预测
来自
w
的相邻词及其上下文,这就是Skip-Gram
方法w
从上下文来看,这是CBOW
方法
因此,word2vec
将为具有相似上下文的单词生成相似的嵌入,例如单数名词及其复数形式的名词,或两个同义词。
手套
Glove
模型的主要直觉是简单的观察,即词与词共现概率的比率有可能编码某种形式的意义。换句话说,嵌入是基于目标词对之间距离的计算。该模型通过分析这两个目标词与其他一些探测词(上下文词)的共现来计算文本中两个目标词之间的距离。
https://nlp.stanford.edu/projects/glove/
例如,考虑目标词“冰”和“蒸汽”与词汇表中的各种探测词的共现概率。以下是来自 60 亿词语料库的一些实际概率:
正如人们所料,“冰”与“固体”同时出现的频率高于与“气体”同时出现的频率,而“蒸汽”与“气体”同时出现的频率高于与“固体”一起出现的频率.这两个词经常与它们共享的属性“水”同时出现,并且很少与不相关的词“时尚”同时出现。只有在概率比中,来自非歧视性词(如“water”和“fashion”)的噪声才会被抵消,因此大值(远大于 1)与“ice”的特定属性相关性很好,而小值(远小于比 1) 与“蒸汽”的特定属性密切相关。通过这种方式,概率比编码了一些与热力学相的抽象概念相关的粗略形式的含义。
另外,Glove非常擅长类比,在word2vec数据集上表现不错