如何缓存 HuggingFace 模型和分词器

How to cache HuggingFace model and tokenizer

我正在使用 hugginface 模型 distilbert-base-uncased 和 tokenizer DistilBertTokenizerFast,我正在使用 .from_pretrained()

加载它们

我想缓存它们,以便它们在没有互联网的情况下也能正常工作。

我在 from_pretrained() 中尝试了 cache_dir 参数,但没有用。

有什么建议吗?

我通过以下步骤解决了问题:

  1. 使用 .from_pretrained()cache_dir = RELATIVE_PATH 下载文件
  2. 例如,在 RELATIVE_PATH 文件夹中,您可能有如下文件: 打开 json 文件,在 url 里面,最后你会看到文件名像 config.json。复制此名称
  3. 将图像中存在的其他文件重命名为您复制的文本(在我们的示例中 config.json
  4. 对其他文件重复这些步骤
  5. 运行 .from_pretrained(RELATIVE_PATH, local_files_only = True) 在你的 model/tokenizer.

这个解决方案应该有效