标记化和分段之间的区别
difference between Tokenization and Segmentation
NLP 中的标记化和分割有什么区别。我搜索了它们,但我没有发现任何区别
.
简答:所有分词都是分词,但并非所有分词都是分词。
长答案:
虽然分段是分割输入文本的更通用的概念,但标记化是一种分段,它是根据明确定义的标准执行的。
例如 - 在一个假设的场景中,如果您所有的输入句子都是两个子句的复合句,那么将它们拆分成两个独立的句子可以称为切分(但不是标记化)。
标记化是一种切分形式这是基于语义标准或使用令牌字典执行的 - 例如单词或子词标记化,主要是为了为下游处理分配标记 ID。
NLP 中的标记化和分割有什么区别。我搜索了它们,但我没有发现任何区别 .
简答:所有分词都是分词,但并非所有分词都是分词。
长答案:
虽然分段是分割输入文本的更通用的概念,但标记化是一种分段,它是根据明确定义的标准执行的。
例如 - 在一个假设的场景中,如果您所有的输入句子都是两个子句的复合句,那么将它们拆分成两个独立的句子可以称为切分(但不是标记化)。
标记化是一种切分形式这是基于语义标准或使用令牌字典执行的 - 例如单词或子词标记化,主要是为了为下游处理分配标记 ID。