如何在 PyTorch 中避免 "CUDA out of memory"

Question

我认为对于 GPU 内存较低的 PyTorch 用户来说，这是一个很常见的消息：

RuntimeError: CUDA out of memory. Tried to allocate  MiB (GPU ;  GiB total capacity;  GiB already allocated;  MiB free;  cached)

我尝试通过将每一层加载到 GPU 然后再加载回来来处理图像：

for m in self.children():
    m.cuda()
    x = m(x)
    m.cpu()
    torch.cuda.empty_cache()

不过好像不是很有效。我想知道在使用少量 GPU 内存的同时训练大型深度学习模型是否有任何提示和技巧。

Answer 1

将批次迭代地发送到 CUDA，并制作小批量。一开始不要将所有数据一次发送到 CUDA。相反，按如下方式进行：

for e in range(epochs):
    for images, labels in train_loader:   
        if torch.cuda.is_available():
            images, labels = images.cuda(), labels.cuda()   
        # blablabla

您还可以使用占用较少内存的 dtypes。例如，torch.float16 或 torch.half.

Answer 2

虽然

import torch
torch.cuda.empty_cache()

为清除占用的cuda内存提供了一个很好的选择，我们也可以通过使用手动清除未使用的变量，

import gc
del variables
gc.collect()

但是仍然在使用这些命令之后，错误可能会再次出现，因为pytorch并没有真正清除内存而是清除了对变量占用的内存的引用。所以在重启内核后减少 batch_size 并找到最佳 batch_size 是最好的选择（但有时不是一个非常可行的选择）。

另一种深入了解 gpu 内存分配的方法是使用：

torch.cuda.memory_summary(device=None, abbreviated=False)

其中，两个参数都是可选的。这给出了内存分配的可读摘要，并允许您找出 CUDA 运行内存不足的原因并重新启动内核以避免错误再次发生（就像我在我的情况下所做的那样）。

迭代传递数据可能会有所帮助，但改变网络层的大小或将它们分解也会被证明是有效的（因为有时模型也会占用大量内存，例如，在进行迁移学习时）。

Answer 3

只需减小批量大小，即可奏效。在我训练时，出现以下错误：

CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 10.76 GiB total capacity; 4.29 GiB already allocated; 10.12 MiB free; 4.46 GiB reserved in total by PyTorch)

我使用的批量大小为 32。所以我将其更改为 15，它对我有用。

Answer 4

实施：

将图像逐批输入gpu。
在训练或推理过程中使用小批量。
使用较小的图像尺寸调整输入图像的大小。

技术上：

大多数网络都过度参数化，这意味着它们对于学习任务来说太大了。所以找到一个合适的网络结构可以帮助：

一个。使用模型压缩、网络修剪和量化等技术压缩您的网络。

b。直接使用更紧凑的网络结构如mobileNetv1/2/3.

c。网络架构搜索(NAS)。

Answer 5

最好的方法是降低批量大小。通常它有效。否则试试这个：

import gc

del variable #delete unnecessary variables 
gc.collect()

Answer 6

尽量不要把你的毕业生拖得太远。

当我试图总结所有批次的损失时，我遇到了同样的错误。

loss =  self.criterion(pred, label)

total_loss += loss

然后我用loss.item代替需要grads的loss，然后解决了问题

loss =  self.criterion(pred, label)

total_loss += loss.item()

以下解决方案归功于yuval reina in the kaggle question

This error is related to the GPU memory and not the general memory => @cjinny comment might not work.
Do you use TensorFlow/Keras or Pytorch?
Try using a smaller batch size.
If you use Keras, Try to decrease some of the hidden layer sizes.
If you use Pytorch:
do you keep all the training data on the GPU all the time?
make sure you don't drag the grads too far
check the sizes of you hidden layer

Answer 7

有很多方法可以避免，但这当然取决于您的 GPU 显存大小：

迭代解包数据时在GPU中加载数据，

features, labels in batch:
   features, labels = features.to(device), labels.to(device)

使用 FP_16 或单精度浮点数据类型。
如果运行内存不足，请尝试减小批量大小。
使用 .detach() 方法从 GPU 中删除不需要的张量。

如果以上所有都使用得当，PyTorch 库已经是高度优化器和高效的。

Answer 8

我有同样的错误，但通过使用以下行将我的图像从 ~600 调整为 100 来修复它：

import torchvision.transforms as transforms
transform = transforms.Compose([
    transforms.Resize((100, 100)), 
    transforms.ToTensor()
])

Answer 9

按照以下步骤操作：

减少训练、验证、测试数据
减少批量大小{例如。 16 或 32}
减少模型参数的数量{例如。不到百万}

就我而言，当我在 kaggle 内核中训练普通语音数据集时，会出现相同的错误。我决定将训练数据集减少到 20000，批量大小减少到 16，模型参数减少到 112K。

Answer 10

虽然这看起来很奇怪，但我发现即使我们恢复出厂设置运行时或关闭选项卡，后台仍有许多会话运行用于协作。我通过单击菜单中的“运行时”然后选择“管理会话”来解决这个问题。我终止了所有不需要的会话，一切顺利。

Answer 11

我建议使用 PyTorch 进行混合精度训练。它可以使训练速度更快并消耗更少的内存。

看看https://spell.ml/blog/mixed-precision-training-with-pytorch-Xuk7YBEAACAASJam。

Answer 12

大部分内容都涵盖了，还会补充一点。

如果 torch 给出错误如“已尝试分配 2 MiB”等，这是误导性消息。实际上，CUDA 用完了训练模型所需的总内存。您可以减少批量大小。比如说，即使 1 的批量大小不起作用（当你训练具有大量序列的 NLP 模型时发生），尝试传递较少的数据，这将帮助你确认你的 GPU 没有足够的内存来训练模型。

此外，如果你想重新训练模型，垃圾收集和清理缓存部分必须重新完成。

Answer 13

现在有一个非常棒的库使这变得非常简单：https://github.com/rentruewang/koila

pip install koila

在您的代码中，只需使用 lazy:

包装输入

from koila import lazy
input = lazy(input, batch=0)

Answer 14

只要不超过 32 的批量大小，就可以了。请记住刷新或重新启动运行时，否则即使减小批处理大小，也会遇到相同的错误。我将批量大小设置为 16，它减少了训练期间出现的零梯度，并且模型与真实函数的匹配度更高。而不是使用 4 或 8 的批量大小，这会导致训练损失波动

Answer 15

我遇到同样的错误，我的GPU是GTX1650，显存4G，内存16G。当我将 batch_size 减少到 3 时，它对我有用。希望对您有所帮助

如何在 PyTorch 中避免 "CUDA out of memory"

How to avoid "CUDA out of memory" in PyTorch

python

object-detection

low-memory

deep-learning

pytorch