在本地机器上训练 GPT-2,加载数据集

Train GPT-2 on local machine, load dataset

我正在尝试 运行 在我的本地机器上使用 gpt-2,因为 google 限制了我的资源,因为我在 colab 中训练的时间太长了。

但是,我看不到如何加载数据集。在原始的 colab notebook https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce 中有命令 gpt2.copy_file_from_gdrive() 我不能在我的本地机器上使用。

在 github 回购 https://github.com/minimaxir/gpt-2-simple 他们只是给出了文件的名称 shakespeare.txt 到函数 gpt2.finetune 并且它以某种方式工作,但这对我不起作用。

不胜感激

如果我在 GitHub 上正确读取 example,它会加载 shakespeare.txt(如果它存在于计算机上),如果它不存在则下载它。对于本地数据集,我只是将一个 txt 文件放在同一文件夹中,然后在 file_name =.

中调用它

您应该能够删除围绕 if not os.path.isfile(file_name): 的逻辑——如果您使用本地文件则不需要。