手套嵌入中的标记和词汇是什么意思?

What does tokens and vocab mean in glove embeddings?

我正在使用手套嵌入,我对嵌入中的 tokensvocab 很困惑。喜欢这个:

Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download)

tokensvocab 分别是什么意思?有什么区别?

在 NLP 中,tokens 指的是你的语料库中 "words" 的总数。我把单词放在引号中是因为定义因任务而异。 vocab是unique的个数"words"。

应该是vocab <= tokens.

tokens是在训练你的语料库后获得的,它们与单词的大小不同。

一个长度为 10 的词,这个词的标记可能是 2 或 3 个标记,它基本上代表了你能多好地表达你的词并使它对你的模型有意义。