在本地机器上训练 GPT-2,加载数据集
Train GPT-2 on local machine, load dataset
我正在尝试 运行 在我的本地机器上使用 gpt-2,因为 google 限制了我的资源,因为我在 colab 中训练的时间太长了。
但是,我看不到如何加载数据集。在原始的 colab notebook https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce 中有命令
gpt2.copy_file_from_gdrive() 我不能在我的本地机器上使用。
在 github 回购 https://github.com/minimaxir/gpt-2-simple 他们只是给出了文件的名称
shakespeare.txt 到函数 gpt2.finetune 并且它以某种方式工作,但这对我不起作用。
不胜感激
如果我在 GitHub 上正确读取 example,它会加载 shakespeare.txt
(如果它存在于计算机上),如果它不存在则下载它。对于本地数据集,我只是将一个 txt 文件放在同一文件夹中,然后在 file_name =
.
中调用它
您应该能够删除围绕 if not os.path.isfile(file_name):
的逻辑——如果您使用本地文件则不需要。
我正在尝试 运行 在我的本地机器上使用 gpt-2,因为 google 限制了我的资源,因为我在 colab 中训练的时间太长了。
但是,我看不到如何加载数据集。在原始的 colab notebook https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce 中有命令 gpt2.copy_file_from_gdrive() 我不能在我的本地机器上使用。
在 github 回购 https://github.com/minimaxir/gpt-2-simple 他们只是给出了文件的名称 shakespeare.txt 到函数 gpt2.finetune 并且它以某种方式工作,但这对我不起作用。
不胜感激
如果我在 GitHub 上正确读取 example,它会加载 shakespeare.txt
(如果它存在于计算机上),如果它不存在则下载它。对于本地数据集,我只是将一个 txt 文件放在同一文件夹中,然后在 file_name =
.
您应该能够删除围绕 if not os.path.isfile(file_name):
的逻辑——如果您使用本地文件则不需要。