由 Sentencepiece 标记化的词向量的子词向量

Subword vectors to a word vector tokenized by Sentencepiece

有一些嵌入模型使用 Sentencepiece 模型进行标记化。因此,他们为不在词汇表中的未知词提供子词向量。但我想为每个单词获取单词向量,如 Word2vec、fastText。 我应该平均子词向量来表示词向量吗?

  • 我在类似的行上做过一些实验,平均所有子词 嵌入与整体的同义词具有更好的余弦相似度 单词.

  • 所以是的 平均是有意义的,并且是分词器的最佳选择,例如 wordpiece 和 sentencepiece