为什么 FastText 词嵌入可以生成另一种语言的词表示?

Why the FastText word embedding could generate the representation of a word from another language?

最近,我从 sentiment140 训练了一个 FastText 词嵌入来获得英语单词的表示。但是,今天只是为了试用,我运行 FastText 模块上了几个中文单词,例如:

import gensim.models as gs

path = r'\data\word2vec'

w2v = gs.FastText.load(os.path.join(path, 'fasttext_model'))

w2v.wv['哈哈哈哈']

它输出:

array([ 0.00303676,  0.02088235, -0.00815559,  0.00484574, -0.03576371,
       -0.02178247, -0.05090654,  0.03063928, -0.05999983,  0.04547168,
       -0.01778449, -0.02716631, -0.03326027, -0.00078981,  0.0168153 ,
        0.00773436,  0.01966593, -0.00756055,  0.02175765, -0.0050137 ,
        0.00241255, -0.03810823, -0.03386266,  0.01231019, -0.00621936,
       -0.00252419,  0.02280569,  0.00992453,  0.02770403,  0.00233192,
        0.0008545 , -0.01462698,  0.00454278,  0.0381292 , -0.02945416,
       -0.00305543, -0.00690968,  0.00144188,  0.00424266,  0.00391074,
        0.01969502,  0.02517333,  0.00875261,  0.02937791,  0.03234404,
       -0.01116276, -0.00362578,  0.00483239, -0.02257918,  0.00123061,
        0.00324584,  0.00432153,  0.01332884,  0.03186348, -0.04119627,
        0.01329033,  0.01382102, -0.01637722,  0.01464139,  0.02203292,
        0.0312229 ,  0.00636201, -0.00044287, -0.00489291,  0.0210293 ,
       -0.00379244, -0.01577058,  0.02185207,  0.02576622, -0.0054543 ,
       -0.03115215, -0.00337738, -0.01589811, -0.01608399, -0.0141606 ,
        0.0508234 ,  0.00775024,  0.00352813,  0.00573649, -0.02131752,
        0.01166397,  0.00940598,  0.04075769, -0.04704212,  0.0101376 ,
        0.01208556,  0.00402935,  0.0093914 ,  0.00136144,  0.03284211,
        0.01000613, -0.00563702,  0.00847146,  0.03236216, -0.01626745,
        0.04095127,  0.02858841,  0.0248084 ,  0.00455458,  0.01467448],
      dtype=float32)

因此,我很想知道为什么sentiment140训练的FastText模块可以做到这一点。谢谢!

事实上,基于 Facebook original/reference 实现的行为,FastText 模型的正确行为是 always return 一个向量一个词汇外的词。

本质上,如果提供的字符串的字符 n-gram 中 none 存在,则仍然会从模型的固定大小集合中的相同查找槽中的任何随机向量合成一个向量n-gram 向量。

在至少 3.7.1 之前的 Gensim 中,FastText class 将抛出一个 KeyError: 'all ngrams for word _____ absent from model' 错误,如果 none 一个词汇外的词的 n -grams 存在——但这是一个错误的行为,将在未来的 Gensim 版本中被逆转,以匹配 Facebook 的 FastText。 (PR to correct this behavior has been merged是Gensim的develop分支,应该会在3.7.1之后的下个版本生效。)

我不确定为什么您描述的特定模型和数据集没有出现此类错误。也许你的 fasttext_model 实际上是用与你想象的不同的文本训练的?或者,使用非常小的非默认 min_n 参数进行训练,使得出现在 sentiment140 数据中的单个 足以构成 哈哈哈哈 的合成向量?

但考虑到标准的 FastText 行为总是报告一些合成向量,并且 Gensim 将在未来的版本中匹配该行为,因此您不应指望此处会出现错误。期望为完全未知的单词返回一个本质上随机的向量,与训练数据没有相似之处。