PyTorch DataLoader 可以从空数据集开始吗?

Can a PyTorch DataLoader start with an empty dataset?

我有一个位于 deque 缓冲区中的数据集,我想使用 DataLoader 从中加载随机批次。缓冲区开始为空。数据将在缓冲区被采样之前添加到缓冲区。

self.buffer = deque([], maxlen=capacity)
self.batch_size = batch_size
self.loader = DataLoader(self.buffer, batch_size=batch_size, shuffle=True, drop_last=True)

但是,这会导致以下错误:

  File "env/lib/python3.8/site-packages/torch_geometric/loader/dataloader.py", line 78, in __init__
    super().__init__(dataset, batch_size, shuffle,
  File "env/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 268, in __init__
    sampler = RandomSampler(dataset, generator=generator)
  File "env/lib/python3.8/site-packages/torch/utils/data/sampler.py", line 102, in __init__
    raise ValueError("num_samples should be a positive integer "
ValueError: num_samples should be a positive integer value, but got num_samples=0

原来 RandomSampler class 在初始化时检查 num_samples 是否为正,这导致了错误。

if not isinstance(self.num_samples, int) or self.num_samples <= 0:
    raise ValueError("num_samples should be a positive integer "
                     "value, but got num_samples={}".format(self.num_samples))

即使 RandomSampler 支持在运行时改变大小的数据集,为什么还要在这里检查?

一种解决方法是使用 IterableDataset,但我想使用 DataLoader 的随机播放功能。

你能想出一种将 DataLoaderdeque 结合使用的好方法吗?非常感谢!

这里的问题既不在于 deque 的使用,也不在于数据集是动态增长的。问题是您从大小为零的数据集开始 - 这是无效的。

最简单的解决方案是从双端队列中的任意对象开始,然后动态删除它。