ngram 向量化 - 如果发现语料库中不存在的新标记，我应该如何处理它

ngram vectorization - if new token found which not exists in corpus, what should I do with it

我正在为词袋模型构建自定义 ngram 向量化器。我很好奇 - 如果在短文本矢量化过程中发现新标记，而语料库词汇表中不存在，我该怎么办。应该跳过它还是什么？

您可以跳过它，也可以在词汇表中为未知单词添加一个特殊标记，例如以前看不见的词被替换为 "UNK" 然后你可以像计算任何其他词一样计算它们。另外，为了处理训练数据中没有任何 UNK 的问题，您可以将所有只在语料库中出现一次的单词替换为 UNK.