分布式训练,DP,DDP,模型训练,模型加载(非常详细)

文章介绍了分布式训练的三种主要方式:模型并行、数据并行和更新方式(同步、异步)。在GPU训练中,讨论了如何使用`torch.cuda`进行数据和模型的迁移,并提到了ParameterServer和AllReduce算法。此外,还阐述了在单机多卡环境下的DP(DataParallel)和DDP(DistributedDataParallel)训练策略以及模型的保存与加载方法。

目录

分布式训练分为几类——

GPU训练

torch.cuda 常用方法


分布式训练分为几类:

1.并行方式:模型并行、数据并行

2.更新方式:同步更新、一部更新

3.算法:parameter server 算法、AllReduce算法

(1)模型并行:不同GPU输入相同的数据,运行模型的不同部分,比如多层网络的不同层

数据并行:不同GPU输入不同的数据,运行相同的完整的模型

                              模型并行                                                          数据并行

当模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值