解决 NCCL WARN Cuda failure ‘invalid device function‘ , unhandled cuda error, NCCL version 2.4.8

本文档描述了遇到CUDA未处理错误和NCCL版本2.4.8问题时的解决步骤。错误信息可能包括'unhandledcudaerror'。解决方法包括设置环境变量如NCCL_SOCKET_IFNAME和NCCL_IB_DISABLE,以及检查CUDA版本与PyTorch版本的一致性。当CUDA版本与PyTorch编译时不匹配时,可能会出现'invaliddevicefunction'警告。建议确保安装的PyTorch版本与本地CUDA版本兼容。

错误信息可能是: unhandled cuda error, NCCL version 2.4.8

设置以下环境变量,查看nccl 错误日志:

export NCCL_SOCKET_IFNAME=enp6s0

export NCCL_IB_DISABLE=1

export NCLL_DEBUG=info

注意,以上export NCCL_SOCKET_IFNAME=enp6s0 中的enp6s0 为你本地的网卡名称,用ifconfig获取。

cuda版本不匹配 会有以下信息: 

znsoft-virtual-machine:102553:102553 [0] NCCL INFO Bootstrap : Using [0]enp6s0:192.168.1.113<0>
znsoft-virtual-machine:102553:102553 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so).
znsoft-virtual-machine:102553:102553 [0] NCCL INFO NCCL_IB_DISABLE set by environment to 1.
znsoft-virtual-machine:102553:102553 [0] NCCL INFO NET/Socket : Using [0]enp6s0:192.168.1.113<0>
NCCL version 2.4.8+cuda10.2
znsoft-virtual-machine:102620:102620 [1] NCCL INFO Bootstrap : Using [0]enp6s0:192.168.1.113<0>
znsoft-virtual-machine:102620:102620 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so).
znsoft-virtual-machine:102620:102620 [1] NCCL INFO NC
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值