Save/Export 来自 google colab notebook 的自定义分词器

Save/Export a custom tokenizer from google colab notebook

我有一个自定义分词器,想在生产环境中使用它进行预测 API。我如何 save/download 分词器?

这是我试图保存它的代码:

import pickle
from tensorflow.python.lib.io import file_io

with file_io.FileIO('tokenizer.pickle', 'wb') as handle:
  pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

没有错误,但保存后找不到分词器。所以我假设代码不起作用?

情况如下,使用一个简单的文件将问题与 pickle、Tensorflow 和分词器等不相关的特性区分开来:

# Run in a new Colab notebook:
%pwd
/content
%ls
sample_data/

让我们保存一个简单的文件foo.npy:

import numpy as np
np.save('foo', np.array([1,2,3]))

%ls
foo.npy  sample_data/

在此阶段,%ls 应该显示 tokenizer.pickle 而不是 foo.npy

现在,Google Drive 和 Colab 默认不通信;你必须先 驱动器(它会要求识别):

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive

之后,%ls 命令将给出:

%ls
drive/  foo.npy  sample_data/

现在您可以在 drive/ 中导航(并保存)(即实际上在您的 Google 驱动器中),相应地更改路径。保存在那里的任何内容都可以稍后检索。