使用 hdf5 进行深度学习的计算优势

computational benefit of using hdf5 for deep learning

在多个实例中,hdf5 存储格式用于深度学习。 hdf5共享数据的好处就可以理解了。但是,我可以期望通过使用 hd5f 而不是连接帧的图像来提高训练效率吗?

如果共享不是我最关心的问题,我有什么理由应该使用 hdf5 吗?

编辑: 我浏览了各种页面,例如 HDF5 用户指南和常见问题解答以及其他博客文章。我发现 hdf5 主要是一种通用的存储格式。我找不到他们在我关心的上下文中讨论有关效率的细节。

我处理过图像、视频、录音、文本,甚至 3D MRI。我从来没有遇到过数据的读取速度是管道瓶颈的情况。

但是,将数据集存储在 hdf5 之类的文件中的一个优点是,初始加载到内存比单独读取数千个文件要快得多。我一般都是用云服务来同步数据,一个大文件也比一百万个小文件方便很多。

除此之外,我想不出使用 hdf5 的效率优势。