pytorch GPU内存耗尽

原创于 2018-10-29 22:01:04 发布 · 1.4w 阅读

27 ·

本内容遵循CC 4.0 BY-SA版权协议

编程工具同时被 2 个专栏收录

6 篇文章

订阅专栏

pytorch

4 篇文章

订阅专栏

本文探讨了PytorchGPU计算中常见的内存耗尽问题，并提供了有效的解决方案，包括避免在循环中累加带有梯度信息的变量，合理管理局部变量以防止内存泄露，以及在设计LinearLayers时控制其规模，防止GPU空间溢出。

pytorch GPU 计算过程中出现内存耗尽

Pytorch GPU运算过程中会出现：“cuda runtime error(2): out of memory”这样的错误。通常，这种错误是由于在循环中使用全局变量当做累加器，且累加梯度信息的缘故，用官方的说法就是："accumulate history across your training loop"。在默认情况下，开启梯度计算的Tensor变量是会在GPU保持他的历史数据的，所以在编程或者调试过程中应该尽力避免在循环中累加梯度信息。

下面举个栗子：

上代码：

total_loss=0
for i in range(10000):
    optimizer.zero_grad()
    output=model(input)
    loss=criterion(output)
    loss.backward()
    optimizer.step()
    total_loss+=loss
    #这里total_loss是跨越循环的变量，起着累加的作用，
    #loss变量是带有梯度的tensor，会保持历史梯度信息，在循环过程中会不断积累梯度信息到tota_loss，占用内存