Save/Export 来自 google colab notebook 的自定义分词器
Save/Export a custom tokenizer from google colab notebook
我有一个自定义分词器,想在生产环境中使用它进行预测 API。我如何 save/download 分词器?
这是我试图保存它的代码:
import pickle
from tensorflow.python.lib.io import file_io
with file_io.FileIO('tokenizer.pickle', 'wb') as handle:
pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)
没有错误,但保存后找不到分词器。所以我假设代码不起作用?
情况如下,使用一个简单的文件将问题与 pickle、Tensorflow 和分词器等不相关的特性区分开来:
# Run in a new Colab notebook:
%pwd
/content
%ls
sample_data/
让我们保存一个简单的文件foo.npy
:
import numpy as np
np.save('foo', np.array([1,2,3]))
%ls
foo.npy sample_data/
在此阶段,%ls
应该显示 tokenizer.pickle
而不是 foo.npy
。
现在,Google Drive 和 Colab 默认不通信;你必须先 驱动器(它会要求识别):
from google.colab import drive
drive.mount('/content/drive')
Mounted at /content/drive
之后,%ls
命令将给出:
%ls
drive/ foo.npy sample_data/
现在您可以在 drive/
中导航(并保存)(即实际上在您的 Google 驱动器中),相应地更改路径。保存在那里的任何内容都可以稍后检索。
我有一个自定义分词器,想在生产环境中使用它进行预测 API。我如何 save/download 分词器?
这是我试图保存它的代码:
import pickle
from tensorflow.python.lib.io import file_io
with file_io.FileIO('tokenizer.pickle', 'wb') as handle:
pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)
没有错误,但保存后找不到分词器。所以我假设代码不起作用?
情况如下,使用一个简单的文件将问题与 pickle、Tensorflow 和分词器等不相关的特性区分开来:
# Run in a new Colab notebook:
%pwd
/content
%ls
sample_data/
让我们保存一个简单的文件foo.npy
:
import numpy as np
np.save('foo', np.array([1,2,3]))
%ls
foo.npy sample_data/
在此阶段,%ls
应该显示 tokenizer.pickle
而不是 foo.npy
。
现在,Google Drive 和 Colab 默认不通信;你必须先
from google.colab import drive
drive.mount('/content/drive')
Mounted at /content/drive
之后,%ls
命令将给出:
%ls
drive/ foo.npy sample_data/
现在您可以在 drive/
中导航(并保存)(即实际上在您的 Google 驱动器中),相应地更改路径。保存在那里的任何内容都可以稍后检索。