了解 BERT vocab [unusedxxx] 标记:
Understanding BERT vocab [unusedxxx] tokens:
我正在尝试理解 BERT 词汇 here。它有 1000 个 [unusedxxx] 令牌。我不遵循这些令牌的用法。我理解其他特殊标记,如 [SEP]、[CLS],但 [unused] 有什么用?
谢谢!
快速搜索一下就会发现这个的用法,具体在original BERT implementation, and this HuggingFace thread.
的讨论中
如果您想在微调或进一步的预训练过程中引入特定单词,未使用的标记会很有帮助;它们允许您按照自己的意愿处理仅在您的上下文中相关的词,并避免 BERT 的原始词汇表中会出现的子词拆分。引用第一次讨论:
Just replace the "[unusedX]" tokens with your vocabulary. Since these were not used they are effectively randomly initialized.
我正在尝试理解 BERT 词汇 here。它有 1000 个 [unusedxxx] 令牌。我不遵循这些令牌的用法。我理解其他特殊标记,如 [SEP]、[CLS],但 [unused] 有什么用?
谢谢!
快速搜索一下就会发现这个的用法,具体在original BERT implementation, and this HuggingFace thread.
的讨论中如果您想在微调或进一步的预训练过程中引入特定单词,未使用的标记会很有帮助;它们允许您按照自己的意愿处理仅在您的上下文中相关的词,并避免 BERT 的原始词汇表中会出现的子词拆分。引用第一次讨论:
Just replace the "[unusedX]" tokens with your vocabulary. Since these were not used they are effectively randomly initialized.