使用 TFDS 加载数据集时磁盘空间不足 space
Not enough disk space when loading dataset with TFDS
我正在实施基于 lsun-bedroom 数据集的 DCGAN 应用程序。我正计划使用 tfds,因为 lsun 在其 catalog. Since the total dataset contains 42.7 GB of images, I only wanted to load a portion(10%) of the full data and used the following code to load the data according to the manual 上。不幸的是,同样的错误通知磁盘不足 space 发生了。 tfds 是否有可能的解决方案,或者我应该使用另一个 API 来加载数据?
tfds.load('lsun/bedroom',split='train[10%:]')
Not enough disk space. Needed: 42.77 GiB (download: 42.77 GiB, generated: Unknown size)
我在 Google Colab
上测试
对我来说,似乎存在某种问题,或者至少对 tfds.load() 的变量 'split' 存在误解。
'split' 似乎是为了在下载整个数据集后加载数据集的给定部分。
我在下载名为“librispeech”的数据集时收到相同的错误消息。变量 'split' 的任何设置似乎都是为了下载整个数据集,这对我的磁盘来说太大了。
我设法下载了更小的“mnist”数据集,但我发现通过将 'split' 设置为 'test' 下载了训练和测试拆分。
TFDS从原作者网站下载数据集。由于数据集通常作为整体存档发布(例如 lsun.zip
),不幸的是
TFDS 不可能只 download/install 部分数据集。
split 参数仅在数据集完全生成后对其进行过滤。注意:您可以在目录中看到数据集的下载大小:https://www.tensorflow.org/datasets/catalog/overview
我正在实施基于 lsun-bedroom 数据集的 DCGAN 应用程序。我正计划使用 tfds,因为 lsun 在其 catalog. Since the total dataset contains 42.7 GB of images, I only wanted to load a portion(10%) of the full data and used the following code to load the data according to the manual 上。不幸的是,同样的错误通知磁盘不足 space 发生了。 tfds 是否有可能的解决方案,或者我应该使用另一个 API 来加载数据?
tfds.load('lsun/bedroom',split='train[10%:]')
Not enough disk space. Needed: 42.77 GiB (download: 42.77 GiB, generated: Unknown size)
我在 Google Colab
上测试对我来说,似乎存在某种问题,或者至少对 tfds.load() 的变量 'split' 存在误解。 'split' 似乎是为了在下载整个数据集后加载数据集的给定部分。
我在下载名为“librispeech”的数据集时收到相同的错误消息。变量 'split' 的任何设置似乎都是为了下载整个数据集,这对我的磁盘来说太大了。
我设法下载了更小的“mnist”数据集,但我发现通过将 'split' 设置为 'test' 下载了训练和测试拆分。
TFDS从原作者网站下载数据集。由于数据集通常作为整体存档发布(例如 lsun.zip
),不幸的是
TFDS 不可能只 download/install 部分数据集。
split 参数仅在数据集完全生成后对其进行过滤。注意:您可以在目录中看到数据集的下载大小:https://www.tensorflow.org/datasets/catalog/overview