在使用 Ray Tune 的每两次试验中内存不足
Out of memory at every second trial using Ray Tune
我正在使用 ray tune 调整超参数。该模型建立在tensorflow库中,它占用了很大一部分可用的GPU内存。我注意到每隔一个调用就报告一次内存不足 error.It 看起来内存正在被释放,你可以在 GPU 内存使用图中看到,这是连续试验调用之间的时刻,发生 OOM 错误.我补充说,在较小的模型上我没有遇到这个错误,图表看起来是一样的。
如何处理每二次试验中的内存不足错误?
实际上有一个实用程序可以帮助避免这种情况:
https://docs.ray.io/en/master/tune/api_docs/trainable.html#ray.tune.utils.wait_for_gpu
def tune_func(config):
tune.util.wait_for_gpu()
train()
tune.run(tune_func, resources_per_trial={"GPU": 1}, num_samples=10)
我正在使用 ray tune 调整超参数。该模型建立在tensorflow库中,它占用了很大一部分可用的GPU内存。我注意到每隔一个调用就报告一次内存不足 error.It 看起来内存正在被释放,你可以在 GPU 内存使用图中看到,这是连续试验调用之间的时刻,发生 OOM 错误.我补充说,在较小的模型上我没有遇到这个错误,图表看起来是一样的。
如何处理每二次试验中的内存不足错误?
实际上有一个实用程序可以帮助避免这种情况:
https://docs.ray.io/en/master/tune/api_docs/trainable.html#ray.tune.utils.wait_for_gpu
def tune_func(config):
tune.util.wait_for_gpu()
train()
tune.run(tune_func, resources_per_trial={"GPU": 1}, num_samples=10)