训练时我的检查点阿尔伯特文件没有改变
My checkpoint albert files does not change when training
我为问答任务训练了 Albert 模型。我有 20 万个问答对,我使用一个 2gb 的保存检查点文件。我在我的 GPU GeForce 2070 RTX 上训练它,每次 1000 步以保存检查点,在训练期间检查点 model.ckpt-96000.data-00000-of-00001
文件只保持 135MB
的大小并且不增加。这是个问题吗?
我不明白为什么使用像 1500 个问答对这样小得多的数据集,它也会生成 135 MB 的检查点文件。它还没有停止训练,但是模型是否有可能通过这次训练得到改进?
在训练模型时,您可以将权重存储在格式为 checkpoints
的文件集合中,这些文件仅包含以二进制格式训练的权重。
特别是,检查点包含:
- 一个或多个包含我们模型权重的块
- 指示特定块中存储了哪些权重的索引文件
因此,检查点文件的大小始终相同这一事实取决于所使用的模型始终相同这一事实。所以模型参数的数量总是相同的,所以你要保存的权重大小总是相同的。而后缀 data-00000-of-00001
表示您正在单机上训练模型。
我认为数据集的大小与它无关。
我为问答任务训练了 Albert 模型。我有 20 万个问答对,我使用一个 2gb 的保存检查点文件。我在我的 GPU GeForce 2070 RTX 上训练它,每次 1000 步以保存检查点,在训练期间检查点 model.ckpt-96000.data-00000-of-00001
文件只保持 135MB
的大小并且不增加。这是个问题吗?
我不明白为什么使用像 1500 个问答对这样小得多的数据集,它也会生成 135 MB 的检查点文件。它还没有停止训练,但是模型是否有可能通过这次训练得到改进?
在训练模型时,您可以将权重存储在格式为 checkpoints
的文件集合中,这些文件仅包含以二进制格式训练的权重。
特别是,检查点包含:
- 一个或多个包含我们模型权重的块
- 指示特定块中存储了哪些权重的索引文件
因此,检查点文件的大小始终相同这一事实取决于所使用的模型始终相同这一事实。所以模型参数的数量总是相同的,所以你要保存的权重大小总是相同的。而后缀 data-00000-of-00001
表示您正在单机上训练模型。
我认为数据集的大小与它无关。