如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件(GPT 和 GPT2 OpenAI 模型)?

How can I create and fit vocab.bpe file (GPT and GPT2 OpenAI models) with my own corpus text?

此问题适用于熟悉 GPT 或 GPT2 OpenAI 模型的人。特别是与编码任务(Byte-Pair Encoding)。这是我的问题:

我想知道如何创建自己的 vocab.bpe 文件。

我有一个西班牙语语料库文本,我想用它来适应我自己的 bpe 编码器。我已经成功地使用 python-bpe 库创建了 encoder.json,但是我不知道如何获取 vocab.bpe 文件。 我已经查看了 gpt-2/src/encoder.py 中的代码,但是我没有找到任何提示。有什么帮助或想法吗?

在此先感谢您。

我没有使用过 GPT2,但是 bpemb 是子词嵌入的一个很好的起点。根据 README

BPEmb is a collection of pre-trained subword embeddings in 275 languages, based on Byte-Pair Encoding (BPE) and trained on Wikipedia. Its intended use is as input for neural models in natural language processing.

我已经将预训练嵌入与 sentencepiece 一起用于我的一个项目,事实证明它非常有用。

查看 here,您可以使用以下命令轻松创建相同的 vocab.bpe:

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000