对新数据进行微调 GPT-2/3
Fine-tuning GPT-2/3 on new data
我正在努力专注于在新数据集上训练 OpenAI 的语言模型。这里有没有人有这方面的经验?
我的想法是为 GPT-2 或 3(虽然我没有 API 访问 3)提供教科书,对其进行训练并能够使用语言模型“讨论”本书的内容然后。我不认为我必须更改任何超参数,我只需要模型中的更多数据。
可以吗??
非常感谢任何(也是概念上的)帮助!
你绝对可以重新训练 GPT-2。您是否只是为了语言生成目的而训练它,或者您是否有特定的下游任务想要调整 GPT-2?
这两项任务都是可以完成的,而且难度不大。如果你想训练语言生成模型,即让它生成特定主题的文本,你可以完全按照预训练阶段训练的方式训练模型。这意味着使用交叉熵损失函数对它进行下一个标记预测任务的训练。只要你有一个数据集,和不错的计算能力,这并不难实现。
当你说'discuss'本书的内容时,在我看来你是在寻找对话model/chatbot。聊天机器人以不同的方式进行训练,如果您确实在寻找对话模型,可以查看 DialoGPT 和其他模型。他们可以被训练成为面向任务的对话代理。
目前 GPT-3 无法像我们对 GPT-2 或 GPT-Neo / Neo-X 那样进行微调。这是因为模型保存在他们的服务器上,并且必须通过 API 发出请求。一个 Hackernews post 说微调 GPT-3 已计划或正在建设中。
话虽如此,OpenAI 的 GPT-3 提供了 Answer API,您可以提供上下文文档(最多 200 个 files/1GB)。然后可以使用 API 作为讨论的方式。
编辑:
Open AI 最近推出了 Fine Tuning 测试版。
https://beta.openai.com/docs/guides/fine-tuning
因此,通过对 link.
的描述,将是问题的最佳答案。
我正在努力专注于在新数据集上训练 OpenAI 的语言模型。这里有没有人有这方面的经验? 我的想法是为 GPT-2 或 3(虽然我没有 API 访问 3)提供教科书,对其进行训练并能够使用语言模型“讨论”本书的内容然后。我不认为我必须更改任何超参数,我只需要模型中的更多数据。
可以吗??
非常感谢任何(也是概念上的)帮助!
你绝对可以重新训练 GPT-2。您是否只是为了语言生成目的而训练它,或者您是否有特定的下游任务想要调整 GPT-2?
这两项任务都是可以完成的,而且难度不大。如果你想训练语言生成模型,即让它生成特定主题的文本,你可以完全按照预训练阶段训练的方式训练模型。这意味着使用交叉熵损失函数对它进行下一个标记预测任务的训练。只要你有一个数据集,和不错的计算能力,这并不难实现。
当你说'discuss'本书的内容时,在我看来你是在寻找对话model/chatbot。聊天机器人以不同的方式进行训练,如果您确实在寻找对话模型,可以查看 DialoGPT 和其他模型。他们可以被训练成为面向任务的对话代理。
目前 GPT-3 无法像我们对 GPT-2 或 GPT-Neo / Neo-X 那样进行微调。这是因为模型保存在他们的服务器上,并且必须通过 API 发出请求。一个 Hackernews post 说微调 GPT-3 已计划或正在建设中。
话虽如此,OpenAI 的 GPT-3 提供了 Answer API,您可以提供上下文文档(最多 200 个 files/1GB)。然后可以使用 API 作为讨论的方式。
编辑: Open AI 最近推出了 Fine Tuning 测试版。 https://beta.openai.com/docs/guides/fine-tuning 因此,通过对 link.
的描述,将是问题的最佳答案。