基于deepseed训练框架相关问题

最新推荐文章于 2026-02-04 00:18:56 发布

原创最新推荐文章于 2026-02-04 00:18:56 发布 · 287 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#大模型 #DeepSeed #大模型训练框架

问题解决方案专栏收录该内容

8 篇文章

订阅专栏

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

1. 多机多卡跑不起来，多机间不能通信，报错如下

Call to connect returned Connection refused, retrying

解决方案：
deepspeed环境依赖问题，重新装pytorch依赖；

conda install pytorch==1.12.0 \
torchvision==0.13.0 \
torchaudio==0.12.0 \
cudatoolkit=11.3 -c pytorch

2. 使用官方ChatGLM-6B 代码训练的时候 loss不降不明显

解决方案：
通过换为ChatGLM-Finetuning的训练框架，loss下降平稳

git clone https://github.com/liucongg/ChatGLM-Finetuning.git

3. ChatGLM-Finetuning官方代码采样器的时候用的是随机采样，导致8卡单机只能跑6卡

解决方案：
改源码，调整成支持对训练数据分布式采样

# 改成分布式采样
# DataLoaders creation:
if args.local_rank == -1:
    train_sampler = RandomSampler(train_dataset)
else:
    train_sampler = DistributedSampler(train_dataset)

train_dataloader = DataLoader(train_dataset,
                              batch_size=conf["train_micro_batch_size_per_gpu"],
                              sampler=train_sampler,
                              collate_fn=coll_fn,
                              drop_last=True,
                              num_workers=0)