用nvidia-smi查看GPU的状态时,能耗pwr显示为ERR!

解决方式:

以下代码查看具体的报错:

dmesg -l err

如果有:

NVRM:***说明硬件问题,需要更换

如果无错误,则参考如下:

1. 将你的工作站或者服务器报错的显卡放置到温度低的地方.如果你没有动服务器硬件的权限,继续往下。

2. 设置持久化模式

sudo nvidia-smi -pm 1

3. 调整运行功率,保证最大功率时候的温度不会超过75C

sudo nvidia-smi -pl 200 -i 1 # 最高250,指定运行的1卡最高功率为200,从而降低发热

sudo nvidia-smi -pl 200 -i 3

其它参考:

Nvidia GPU风扇和电源显示ERR! 解决办法 - 走看看

NVIDIA-SMI Shows ERR! 显卡出现错误!_瞧不死的AI的博客-CSDN博客_nvidia-smi 出来很慢 显示err!