目录
分布式训练分为几类:
1.并行方式:模型并行、数据并行
2.更新方式:同步更新、一部更新
3.算法:parameter server 算法、AllReduce算法
(1)模型并行:不同GPU输入相同的数据,运行模型的不同部分,比如多层网络的不同层
数据并行:不同GPU输入不同的数据,运行相同的完整的模型
模型并行 数据并行


当模型
文章介绍了分布式训练的三种主要方式:模型并行、数据并行和更新方式(同步、异步)。在GPU训练中,讨论了如何使用`torch.cuda`进行数据和模型的迁移,并提到了ParameterServer和AllReduce算法。此外,还阐述了在单机多卡环境下的DP(DataParallel)和DDP(DistributedDataParallel)训练策略以及模型的保存与加载方法。
目录
1.并行方式:模型并行、数据并行
2.更新方式:同步更新、一部更新
3.算法:parameter server 算法、AllReduce算法
(1)模型并行:不同GPU输入相同的数据,运行模型的不同部分,比如多层网络的不同层
数据并行:不同GPU输入不同的数据,运行相同的完整的模型
模型并行 数据并行


当模型
1万+

被折叠的 条评论
为什么被折叠?
&spm=1001.2101.3001.5002&articleId=130068930&d=1&t=3&u=120e2e3713ad40fab466264742fffd12)