如何存储词向量嵌入？

Question

0

我正在使用 BERT Word Embeddings 进行带有 3 个标签的句子分类任务。我正在使用 Google Colab 进行编码。我的问题是，因为每次重启内核都要执行embedding部分，有没有办法在生成后保存这些word embeddings？因为，生成这些嵌入需要很多时间。

我用来生成 BERT 词嵌入的代码是 -

[get_features(text_list[i]) for text_list[i] in text_list]

这里，gen_features 是一个函数，它为我列表中的每个 i returns 词嵌入 text_list。

我读到将嵌入转换为颠簸张量然后使用 np.save 可以做到。但是我真的不知道怎么编码。

请帮忙。

Answer 1

您可以按照以下步骤将嵌入数据保存到 numpy 文件中：

all_embeddings = here_is_your_function_return_all_data()
all_embeddings = np.array(all_embeddings)
np.save('embeddings.npy', all_embeddings)

如果您要保存到 google colab，则可以将其下载到本地计算机。需要的时候，上传加载即可。

all_embeddings = np.load('embeddings.npy')

就是这样。

顺便说一句，您也可以直接将文件保存到 google 驱动器。

How to store Word vector Embeddings?