MXNet 是否以流方式从 S3 读取训练数据?

Does MXNet read training data from S3 in a streaming fashion?

This 页面讨论直接从 S3 存储桶读取训练数据。有谁知道数据是以流方式读取的,还是在训练开始前将整个训练数据复制到本地缓存?

数据实际上是以流方式读取的。如果你想在本地缓存整个文件,你需要在训练开始前手动或使用脚本。

请注意,如果未提供 .lst 文件,某些迭代器可能会在训练开始前读取整个 .rec 文件(以获取一些元数据)。在创建迭代器时同时提供 .rec 和 .lst 文件是个好主意。

示例:

itr = mxnet.image.ImageDetIter(batch_size=32, data_shape=(3,300,300),
                               path_imgrec=“s3://my_bucket_name/training_data/train.rec”,
                               path_imglist=“s3://my_bucket_name/training_data/train.lst”)