告别CUDA_VISIBLE_DEVICES无效！手把手教你用torchrun搞定MMDetection 3.x多GPU训练

最新推荐文章于 2026-06-17 21:24:08 发布

原创

最新推荐文章于 2026-06-17 21:24:08 发布 · 132 阅读

标签

#MMDetection #多GPU训练 #torchrun #深度学习

收录于

告别CUDA_VISIBLE_DEVICES无效！手把手教你用torchrun搞定MMDetection 3.x多GPU训练

在深度学习模型训练中，多GPU并行是提升效率的必备技能。但当你从MMDetection 2.x升级到3.x后，可能会发现一个令人困惑的现象：明明通过CUDA_VISIBLE_DEVICES=0,1,2,3指定了四块GPU，训练时却只有第一块卡在忙碌，其他GPU仿佛在"围观"。这不是你的错觉，而是MMDetection 3.x分布式训练机制的重大改变。

1. 为什么CUDA_VISIBLE_DEVICES突然失效了？

在MMDetection 2.x时代，我们可以通过两种方式指定GPU：

使用--gpus参数直接指定GPU数量
通过CUDA_VISIBLE_DEVICES环境变量选择特定GPU

但在3.x版本中，--gpus参数被彻底移除，而单纯依赖CUDA_VISIBLE_DEVICES也无法实现真正的多卡并行。这是因为MMDetection 3.x基于PyTorch的分布式训练框架进行了重构，需要更底层的启动方式。

关键区别：

2.x版本：使用OpenMMLab自封装的分布式训练接口
3.x版本：完全采用PyTorch原生分布式训练方案

# MMDetection 2.x的多卡训练方式（已失效）
CUDA_VISIBLE_DEVICES=0,1,2,3 python tools/train.py config.py --gpus 4

2. torch.distributed.launch的正确打开方式

PyTorch官方提供了torch.distributed.launch工具来启动分布式训练。这个Pyth

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30627341

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

php的session问题总结

weixin_33696106的博客

11-15

1. 看文档发现,在session的configure option中有三个关于gc的,分别是: session.gc_probability "1" PHP_INI_ALL session.gc_divisor "100" PHP_INI_ALL Available since PHP 4.3.2. session.gc_maxlifetime "1440" PHP_INI_ALL 那么g...

参与评论您还未登录，请先登录后发表或查看评论

php.ini文件中关于cookie和session的设置

crazychen的专栏

05-22

1942

1，session.name 改配置用于设置session的名字，这个值可以通过session_name

关于Session中的session.gc_*

stefan321的专栏

09-01

447

关于登录超时,自动退出页面的问题! 我的做法是: 通过Session 控制失败1:在 php.ini 中设定 session 失效的时间,我设置session.gc_maxlifetime为180,可是我等了足足5分钟(可能有8分钟),可是我依然能进入系统.设置后有重启linux. 失败2:在程序中插入函数 ini_set('session.gc_maxlifetime'...

PHP session回收机制及php.ini session生命期gc_maxlifetime配置/gc_maxlifetime无效

莫冲的专栏

03-28

981

由于PHP的工作机制，它并没有一个daemon线程，来定时地扫描session信息并判断其是否失效。当一个有效请求发生时，PHP会根据全局变量 session.gc_probability/session.gc_divisor（同样可以通过php.ini或者ini_set()函数来修改）的值，来决定是否启动一个GC（Garbage Collector）。默认情况下，session.gc_prob

告别CUDA_VISIBLE_DEVICES无效！MMDetection 3.x多GPU训练的正确姿势（附torchrun迁移指南）

weixin_28746223的博客

05-04

137

本文详细解析了MMDetection 3.x多GPU训练的正确配置方法，解决了CUDA_VISIBLE_DEVICES无效的问题，并提供了从torch.distributed.launch迁移到torchrun的完整指南。通过实战案例和性能调优建议，帮助开发者高效利用多GPU资源，提升训练效率。

深度学习周报（6.8~6.14）

m0_57788739的博客

06-14

281

本周主要在上周的基础上对基线模型进行了训练，同时对预处理部分进行了完善。下周努力一把把剩下的主体都搞了，同时对比一下两个模型的效果，同时训练的时候为了固定结果可以加一个随机种子。

吴恩达《深度学习》之看懂Adam 优化算法

m0_74435839的博客

06-15

231

Adam优化算法是深度学习中广泛使用的优化器，它结合了动量梯度下降和RMSprop的优点，通过自适应调整学习率来提高训练效率。文章从物理角度形象解析了Adam的核心机制：动量项（一阶矩）减少参数更新的震荡，而梯度平方项（二阶矩）根据地形陡峭程度自动调节步长（陡峭时减速，平缓时加速）。PyTorch中只需简单调用optim.Adam即可实现这一复杂过程。尽管Adam通用性强，但某些场景（如CV任务）仍可能使用SGD-Momentum以获得更精确的解。全文通过“小球下山”的比喻，生动揭示了数学公式背后的动态调节

Python全栈项目--基于深度学习的自动驾驶模拟系统

exlink2012的专栏

06-17

587

本文介绍了一个基于深度学习的自动驾驶模拟系统全栈项目，包含以下核心内容：系统架构：采用前后端分离设计，Python+FastAPI处理后端逻辑和深度学习模拟，Vue3构建前端交互界面。功能模块：用户认证（JWT+bcrypt加密）场景配置（道路类型/天气/交通密度）自动驾驶模拟（车道线识别/障碍物检测/碰撞风险评估）数据看板展示技术特点：轻量级SQLite数据库存储完整的认证流程实现可扩展的深度学习模拟框架响应式前端界面学习价值：项目提供了完整的开发流程和可运行源码，适合作为深度学习

学习长短期记忆网络lstm

qq_52122048的博客

06-17

297

Ct可能是-2到2之间，所以后面再来一个tanh缩小范围-1到1之间。

pi*0.6的RECAP：VLA如何从成功、失败和人工纠正中继续学习

chen_znn的博客

06-13

571

pi*0.6是Physical Intelligence提出的新一代VLA模型。与主要依赖示范学习的VLA不同，它引入了RECAP，使模型能够继续利用机器人自主运行产生的成功轨迹、失败轨迹和人工纠正数据改进策略。RECAP不使用传统的在线PPO直接更新大型VLA，而是先训练价值函数判断机器人是否正在接近任务目标，再为数据中的动作计算优势标签，最后把优势作为文本条件加入VLA。这样既能保留原有的监督训练方式，也能让模型逐渐偏向更有效的动作。

吴恩达《深度学习》之看懂 ResNet

m0_74435839的博客

06-13

395

本文深入解析了ResNet（残差网络）的核心思想与创新之处。文章首先指出深度学习领域2015年的关键突破——何恺明提出的ResNet解决了深层网络训练中的退化问题，即层数增加反而导致训练误差上升的反常现象。通过对比普通网络与残差网络的结构差异，文章揭示：普通深层网络难以学习恒等映射，因为经过多层非线性变换后精确实现f(x)=x几乎不可能； ResNet通过引入跳跃连接（Y=F(x)+x），将恒等映射转化为"自然躺平"即可实现的结构特性；这种设计使网络只需令F(x)=0就能保持信息无损传递

OpenBCI-脑电信号深度学习：CNN与RNN应用

DreamLife

06-13

282

本文探讨了深度学习在脑电信号(EEG)处理中的应用，重点介绍了CNN和RNN两种主流方法。相比传统机器学习需要手工提取特征，深度学习能自动学习EEG信号的时空特征。文章详细分析了CNN的一维和二维实现方式，包括将EEG转换为频谱图的技术；同时阐述了RNN特别是LSTM网络处理EEG时序数据的能力。针对EEG数据量小、噪声大等挑战，提出了数据增强、迁移学习等解决方案。通过代码示例展示了如何构建实用的EEG深度学习模型，为脑机接口研究提供了技术参考。

基于 PyTorch 的食物图像分类CNN 训练全流程

2301_78775214的博客

06-12

850

本文详细介绍了基于PyTorch实现20类食物图像分类的完整流程。首先通过自动生成标签文件建立图片路径与分类标签的映射关系；接着自定义Dataset类实现数据读取与预处理；然后搭建包含三组卷积块的CNN网络结构；最后完成模型训练与评估。项目采用标准工业流程，涵盖数据准备、模型构建、训练优化等关键环节，并提供了Windows环境下的中文路径乱码解决方案。代码实现注重可复用性，支持自动选择GPU加速，可作为图像分类任务的通用模板。通过10轮训练后，模型能够在测试集上实现有效分类。

基于深度学习的目标跟踪综述（A review of object tracking based on deep learningq）

最新发布

2301_78173237的博客

06-17

282

随着深度学习技术的快速发展，目标跟踪算法的发展也随之兴起。鉴于目标、骨干网络和应用方法的多样性，本研究旨在综合整合现有的目标跟踪方法。我们提出了一种基于应用场景和主要方法的系统分类方案，伴随着对每个类别的透彻分析和简明摘要。这种方法提供了更广泛的跟踪技术覆盖面，便于新手研究人员更快地理解该领域。此外，我们提出了标准化的评估指标和广泛使用的数据集，包括在相同的基准上对选定算法进行跨方法性能比较，以增强读者对上下文的理解。最后，我们对当前的局限性、实用建议和前瞻性观点进行了批判性评估，以指导未来的研究方向。

深度学习联邦学习与隐私保护机器学习 —— 数据不动模型动（七十六）

hello.reader

06-13

264

机制MMM满足ϵ\epsilonϵ-差分隐私，若对相邻数据集DD′D, D'DD′PMD∈SPMD′∈S≤eϵPMD′∈SPMD∈S≤eϵ→ 一条记录的有无，对输出概率影响很小。

基于深度学习的药用草本植物识别系统

2303_76970643的博客

06-13

595

本文介绍了一个基于深度学习的药用植物识别系统，使用ResNet50模型和迁移学习技术，实现对98类药用植物的高精度自动识别。系统Top-1准确率达95.07%，Top-5准确率达99.26%。项目采用PyTorch框架，结合RandAugment、MixUp、CutMix等数据增强技术，以及AdamW优化器和余弦退火学习率调度策略。数据集包含10,813张图像，通过分层抽样划分为训练集(70%)、验证集(15%)和测试集(15%)。系统提供Grad-CAM热力图可视化模型决策依据，并生成详细的评估指标和可视

深度学习时候d2l报错和使用问题

qq_52122048的博客

06-16

224

解决AttributeError: module ‘d2l.torch‘ has no attribute ‘load_data_time_machine‘_attributeerror: module 'torch' has no attribute 'l-CSDN博客。【d2l包】关于李沐《动手学深度学习》中的attributeerror: module ‘d2l.torch‘ has no attribute ‘train_ch3‘问题_d2l.train_ch3报错-爱代码爱编程。

当电化铝分切机遇上深度学习：精度与效率的双重跃升

delishcomcn的博客

06-17

339

当深度学习遇见电化铝分切机，一场从“被动抵抗”到“主动感知”，从“替代人手”到“认知决策”的技术跃升正在发生。