Wordpiece 标记化与传统词形还原？

Wordpiece tokenization versus conventional lemmatization?

我正在研究 NLP 预处理。在某些时候，我想实现一个上下文相关的词嵌入，作为一种辨别词义的方式，我正在考虑使用 BERT 的输出来实现这一点。我注意到 BERT 使用 WordPiece 标记化（例如，"playing" -> "play" + "##ing"）。

现在，我使用标准分词器对我的文本进行了预处理，该分词器在空格/一些标点符号上进行了拆分，然后我使用了词形还原器 ("playing" ->"play")。我想知道 WordPiece 标记化比标准标记化 + 词形还原有什么好处。我知道 WordPiece 可以帮助处理词汇量不足的单词，但还有别的吗？也就是说，即使我最终没有使用 BERT，我是否应该考虑用 wordpiece 标记化替换我的标记器 + 词形还原器？在什么情况下会有用？

word-piece 标记化以多种方式提供帮助，并且应该比词形还原器更好。由于多种原因：

如果你有单词 'playful'、'playing'、'played'，要被词形化为 'play'，它可能会丢失一些信息，例如 playing是 present-tense 并且 played 是 past-tense，这在 word-piece 标记化中不会发生。
词块标记涵盖了所有的词，甚至是字典中没有出现的词。它拆分单词并且会有 word-piece 个标记，这样，您应该有拆分 word-pieces 的嵌入，这与删除单词或替换为 'unknown' 标记不同。

使用 word-piece 分词而不是分词器+lemmatizer 只是一种设计选择，word-piece 分词应该表现良好。但是您可能必须考虑在内，因为 word-piece 标记化会增加标记的数量，而在词形还原中并非如此。

Wordpiece 标记化与传统词形还原？

Wordpiece tokenization versus conventional lemmatization?

nlp

tokenize

lemmatization