NCCL error in: /pytorch/torch/lib/c10d/ProcessGroupNCCL ,unhandled cuda error, NCCLversion 2.7.8

原创已于 2022-04-25 14:35:33 修改 · 2.1w 阅读

15 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#NCCL version #stylegan3 #NCCL error #pytorch #cudatoolkit11.0

于 2022-04-24 16:53:44 首次发布

Pytorch 同时被 2 个专栏收录

6 篇文章

订阅专栏

BUG

3 篇文章

订阅专栏

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

本文采用方法

pytorch 、cudatoolkit、cuda驱动的版本需一致

问题描述

使用多GPU训练 stylegan3 模型时：

python train.py --outdir=training-runs --cfg=stylegan3-r \
--data=datastes/your_data.zip \
--cfg=stylegan3-r --gpus=4 --batch=32 --gamma=8 --kimg=1800 --snap=50  --tick=2

`报错信息`

torch.multiprocessing.spawn.ProcessRaisedException:
……
RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1631630841592/work/torch/lib/c10d/ProcessGroupNCCL.cpp:911, unhandled cuda error, NCCL version 2.7.8
ncclUnhandledCudaError: Call to CUDA function failed.

本地环境

4xTeslaV100 显卡驱动及CUDA版本为11.0

stylegan3 默认环境

在这里插入图片描述

`解决方法`

去pytorch官网，搜索对应的 Cudatookit版本

conda install pytorch==1.7.0 torchvision==0.8.0 torchaudio==0.7.0 cudatoolkit=11.0 -c pytorch

在这里插入图片描述

探索过程

思路1 ：安装nccl （本文没用）

思路2：pytorch 、cudatoolkit、cuda驱动的版本一致

https://github.com/ultralytics/yolov5/issues/4530

您可能感兴趣的与本文相关的镜像

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen

文本生成

Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。