Tensorflow 检查点保存数据文件
Tensorflow checkpoints saving data file
大家好,
我正在使用 tensorflow 来解决一些机器学习问题,但考虑到检查点,我遇到了一个难以理解的问题。保存检查点会产生元数据、索引和数据文件。
但是数据文件末尾的数字是什么意思,例如
model.ckpt.data-00000-of-00001?
为什么它总是 00000-of-00001?
A tf.training.Saver 实例化时有一个参数 sharded
,默认设置为 false。
sharded: If True, shard the checkpoints, one per device.
当您调用 save()
时,您可以根据文档看到:
Returns: A string: path prefix used for the checkpoint files. If the saver is sharded, this string ends with: '-?????-of-nnnnn' where 'nnnnn' is the number of shards created. If the saver is empty, returns None.
因此,如果您设置 sharded=True
并在多个设备上进行训练,例如使用 GPU 集群,或者让我们以本地机器为例,其中您的一部分模型位于 CPU 和 GPU 中的另一部分,你会得到:data-00000-00002 和 data-00001-of-00002.
大家好,
我正在使用 tensorflow 来解决一些机器学习问题,但考虑到检查点,我遇到了一个难以理解的问题。保存检查点会产生元数据、索引和数据文件。 但是数据文件末尾的数字是什么意思,例如 model.ckpt.data-00000-of-00001? 为什么它总是 00000-of-00001?
A tf.training.Saver 实例化时有一个参数 sharded
,默认设置为 false。
sharded: If True, shard the checkpoints, one per device.
当您调用 save()
时,您可以根据文档看到:
Returns: A string: path prefix used for the checkpoint files. If the saver is sharded, this string ends with: '-?????-of-nnnnn' where 'nnnnn' is the number of shards created. If the saver is empty, returns None.
因此,如果您设置 sharded=True
并在多个设备上进行训练,例如使用 GPU 集群,或者让我们以本地机器为例,其中您的一部分模型位于 CPU 和 GPU 中的另一部分,你会得到:data-00000-00002 和 data-00001-of-00002.