CNN:从 word2vec 初始化未知词

CNN: initializing unknown words from word2vec

我看到了这些幻灯片,Kim 关于 CNN 使用 word2vec 的演示: http://www.people.fas.harvard.edu/~yoonkim/data/Kim_EMNLP_2014_slides.pdf

在幻灯片 20 上,第四个要点为:

Words not in word2vec are initialized randomly from U[−a, a] 
where a is chosen such that the unknown words have the
same variance as words already in word2vec.

现在我想知道如何计算 "a" 以及如何计算完全未知单词的整个向量。

根据米科洛夫自己的一个answer,可以根据不常用词描述的space来初始化向量。在他的回答中,他提到你应该对不常用的词进行平均,然后以这种方式构建未知标记。

顺着这个思路,我觉得a指的是不常用词的半径space。你可以做的是得到不常用词的质心 C(通过平均值),计算不常用向量的直径 2*a space Q,通过位于Q内均匀分布的样本生成随机向量u