手套嵌入中的标记和词汇是什么意思?
What does tokens and vocab mean in glove embeddings?
我正在使用手套嵌入,我对嵌入中的 tokens
和 vocab
很困惑。喜欢这个:
Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download)
tokens
和 vocab
分别是什么意思?有什么区别?
在 NLP 中,tokens 指的是你的语料库中 "words" 的总数。我把单词放在引号中是因为定义因任务而异。 vocab是unique的个数"words"。
应该是vocab <= tokens.
tokens是在训练你的语料库后获得的,它们与单词的大小不同。
一个长度为 10 的词,这个词的标记可能是 2 或 3 个标记,它基本上代表了你能多好地表达你的词并使它对你的模型有意义。
我正在使用手套嵌入,我对嵌入中的 tokens
和 vocab
很困惑。喜欢这个:
Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download)
tokens
和 vocab
分别是什么意思?有什么区别?
在 NLP 中,tokens 指的是你的语料库中 "words" 的总数。我把单词放在引号中是因为定义因任务而异。 vocab是unique的个数"words"。
应该是vocab <= tokens.
tokens是在训练你的语料库后获得的,它们与单词的大小不同。
一个长度为 10 的词,这个词的标记可能是 2 或 3 个标记,它基本上代表了你能多好地表达你的词并使它对你的模型有意义。