使用 TFDS 加载数据集时磁盘空间不足 space

Not enough disk space when loading dataset with TFDS

我正在实施基于 lsun-bedroom 数据集的 DCGAN 应用程序。我正计划使用 tfds,因为 lsun 在其 catalog. Since the total dataset contains 42.7 GB of images, I only wanted to load a portion(10%) of the full data and used the following code to load the data according to the manual 上。不幸的是,同样的错误通知磁盘不足 space 发生了。 tfds 是否有可能的解决方案,或者我应该使用另一个 API 来加载数据?

tfds.load('lsun/bedroom',split='train[10%:]')

Not enough disk space. Needed: 42.77 GiB (download: 42.77 GiB, generated: Unknown size)

我在 Google Colab

上测试

对我来说,似乎存在某种问题,或者至少对 tfds.load() 的变量 'split' 存在误解。 'split' 似乎是为了在下载整个数据集后加载数据集的给定部分。

我在下载名为“librispeech”的数据集时收到相同的错误消息。变量 'split' 的任何设置似乎都是为了下载整个数据集,这对我的磁盘来说太大了。

我设法下载了更小的“mnist”数据集,但我发现通过将 'split' 设置为 'test' 下载了训练和测试拆分。

TFDS从原作者网站下载数据集。由于数据集通常作为整体存档发布(例如 lsun.zip),不幸的是 TFDS 不可能只 download/install 部分数据集。

split 参数仅在数据集完全生成后对其进行过滤。注意:您可以在目录中看到数据集的下载大小:https://www.tensorflow.org/datasets/catalog/overview