首页
标签

huggingface-tokenizers

变形金刚 AutoTokenizer.tokenize 引入了额外的角色
要求截断为 max_length 但未提供最大长度，并且模型没有预定义的最大长度。默认为不截断
如何在 python 分词器库中设置词汇量？
分词器改变词汇条目
如何在BERT中获取对应的已经标记为'UNK' token的字符或字符串？
BERT 获取句子嵌入
如何在推理后将标记化的词转换回原始词？
在管道中使用带有参数的拥抱面转换器
使用来自 HuggingFace 的转换器的 TFBertModel 和 AutoTokenizer 构建模型时出现输入问题
如何向标记器添加新的特殊标记？
无论字符串大小如何，BERT 输出的形状都可以固定吗？
获取 BertTokenizer 生成的子词索引（在 transformers 库中）
HuggingFace-Transformers --- NER单sentence/sample预测
HUGGINGFACE TypeError: '>' not supported between instances of 'NoneType' and 'int'
HuggingFace Tokenizer：如何获取 unicodes 字符串的标记？
从标记化字符串中提取 NLP 相关模型的嵌入值
设置 `remove_unused_columns=False` 会导致 HuggingFace Trainer 出错 class
如何使用 huggingface 或 spacy 或任何基于 python 的工作流程将单词转换为数字
使用 huggingface transformer[marianmt] 翻译较大文本的奇怪结果
batch_encode_plus 分词器方法的问题

1 2 3 4 5

©2023 WhoseBug