由 Sentencepiece 标记化的词向量的子词向量
Subword vectors to a word vector tokenized by Sentencepiece
有一些嵌入模型使用 Sentencepiece 模型进行标记化。因此,他们为不在词汇表中的未知词提供子词向量。但我想为每个单词获取单词向量,如 Word2vec、fastText。
我应该平均子词向量来表示词向量吗?
我在类似的行上做过一些实验,平均所有子词
嵌入与整体的同义词具有更好的余弦相似度
单词.
所以是的 平均是有意义的,并且是分词器的最佳选择,例如
wordpiece 和 sentencepiece
有一些嵌入模型使用 Sentencepiece 模型进行标记化。因此,他们为不在词汇表中的未知词提供子词向量。但我想为每个单词获取单词向量,如 Word2vec、fastText。 我应该平均子词向量来表示词向量吗?
我在类似的行上做过一些实验,平均所有子词 嵌入与整体的同义词具有更好的余弦相似度 单词.
所以是的 平均是有意义的,并且是分词器的最佳选择,例如 wordpiece 和 sentencepiece