错误信息可能是: unhandled cuda error, NCCL version 2.4.8
设置以下环境变量,查看nccl 错误日志:
export NCCL_SOCKET_IFNAME=enp6s0
export NCCL_IB_DISABLE=1
export NCLL_DEBUG=info
注意,以上export NCCL_SOCKET_IFNAME=enp6s0 中的enp6s0 为你本地的网卡名称,用ifconfig获取。
cuda版本不匹配 会有以下信息:
znsoft-virtual-machine:102553:102553 [0] NCCL INFO Bootstrap : Using [0]enp6s0:192.168.1.113<0>
znsoft-virtual-machine:102553:102553 [0] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so).
znsoft-virtual-machine:102553:102553 [0] NCCL INFO NCCL_IB_DISABLE set by environment to 1.
znsoft-virtual-machine:102553:102553 [0] NCCL INFO NET/Socket : Using [0]enp6s0:192.168.1.113<0>
NCCL version 2.4.8+cuda10.2
znsoft-virtual-machine:102620:102620 [1] NCCL INFO Bootstrap : Using [0]enp6s0:192.168.1.113<0>
znsoft-virtual-machine:102620:102620 [1] NCCL INFO NET/Plugin : No plugin found (libnccl-net.so).
znsoft-virtual-machine:102620:102620 [1] NCCL INFO NC

本文档描述了遇到CUDA未处理错误和NCCL版本2.4.8问题时的解决步骤。错误信息可能包括'unhandledcudaerror'。解决方法包括设置环境变量如NCCL_SOCKET_IFNAME和NCCL_IB_DISABLE,以及检查CUDA版本与PyTorch版本的一致性。当CUDA版本与PyTorch编译时不匹配时,可能会出现'invaliddevicefunction'警告。建议确保安装的PyTorch版本与本地CUDA版本兼容。

1426

被折叠的 条评论
为什么被折叠?



