Wordpiece 标记化与传统词形还原?

Wordpiece tokenization versus conventional lemmatization?

我正在研究 NLP 预处理。在某些时候,我想实现一个上下文相关的词嵌入,作为一种辨别词义的方式,我正在考虑使用 BERT 的输出来实现这一点。我注意到 BERT 使用 WordPiece 标记化(例如,"playing" -> "play" + "##ing")。

现在,我使用标准分词器对我的文本进行了预处理,该分词器在空格/一些标点符号上进行了拆分,然后我使用了词形还原器 ("playing" ->"play")。我想知道 WordPiece 标记化比标准标记化 + 词形还原有什么好处。我知道 WordPiece 可以帮助处理词汇量不足的单词,但还有别的吗?也就是说,即使我最终没有使用 BERT,我是否应该考虑用 wordpiece 标记化替换我的标记器 + 词形还原器?在什么情况下会有用?

word-piece 标记化以多种方式提供帮助,并且应该比词形还原器更好。由于多种原因:

  1. 如果你有单词 'playful'、'playing'、'played',要被词形化为 'play',它可能会丢失一些信息,例如 playing是 present-tense 并且 played 是 past-tense,这在 word-piece 标记化中不会发生。
  2. 词块标记涵盖了所有的词,甚至是字典中没有出现的词。它拆分单词并且会有 word-piece 个标记,这样,您应该有拆分 word-pieces 的嵌入,这与删除单词或替换为 'unknown' 标记不同。

使用 word-piece 分词而不是分词器+lemmatizer 只是一种设计选择,word-piece 分词应该表现良好。但是您可能必须考虑在内,因为 word-piece 标记化会增加标记的数量,而在词形还原中并非如此。