分布式训练，DP,DDP，模型训练，模型加载（非常详细）

原创

已于 2023-12-10 16:44:50 修改 · 1.9k 阅读

·

1

·

标签

#深度学习

于 2023-04-14 10:42:09 首次发布

文章介绍了分布式训练的三种主要方式：模型并行、数据并行和更新方式（同步、异步）。在GPU训练中，讨论了如何使用`torch.cuda`进行数据和模型的迁移，并提到了ParameterServer和AllReduce算法。此外，还阐述了在单机多卡环境下的DP（DataParallel）和DDP（DistributedDataParallel）训练策略以及模型的保存与加载方法。

目录

分布式训练分为几类——

torch.cuda 常用方法

分布式训练分为几类：

1.并行方式：模型并行、数据并行

2.更新方式：同步更新、一部更新

3.算法：parameter server 算法、AllReduce算法

（1）模型并行：不同GPU输入相同的数据，运行模型的不同部分，比如多层网络的不同层

数据并行：不同GPU输入不同的数据，运行相同的完整的模型

模型并行数据并行

当模型

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。