如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件（GPT 和 GPT2 OpenAI 模型）？

Question

此问题适用于熟悉 GPT 或 GPT2 OpenAI 模型的人。特别是与编码任务（Byte-Pair Encoding）。这是我的问题：

我想知道如何创建自己的 vocab.bpe 文件。

我有一个西班牙语语料库文本，我想用它来适应我自己的 bpe 编码器。我已经成功地使用 python-bpe 库创建了 encoder.json，但是我不知道如何获取 vocab.bpe 文件。我已经查看了 gpt-2/src/encoder.py 中的代码，但是我没有找到任何提示。有什么帮助或想法吗？

在此先感谢您。

Answer 1

我没有使用过 GPT2，但是 bpemb 是子词嵌入的一个很好的起点。根据 README

BPEmb is a collection of pre-trained subword embeddings in 275 languages, based on Byte-Pair Encoding (BPE) and trained on Wikipedia. Its intended use is as input for neural models in natural language processing.

我已经将预训练嵌入与 sentencepiece 一起用于我的一个项目，事实证明它非常有用。

Answer 2

查看 here，您可以使用以下命令轻松创建相同的 vocab.bpe：

python learn_bpe -o ./vocab.bpe -i dataset.txt --symbols 50000

如何使用我自己的语料库文本创建和拟合 vocab.bpe 文件（GPT 和 GPT2 OpenAI 模型）？

How can I create and fit vocab.bpe file (GPT and GPT2 OpenAI models) with my own corpus text?

python

encoding

nlp

gpt-2