一次在内网隔离环境中为Dify工作流无缝切换大模型引擎的实战复盘

最新推荐文章于 2026-06-29 15:20:10 发布

原创

最新推荐文章于 2026-06-29 15:20:10 发布 · 252 阅读

·

8

·

1. 内网环境下的Dify工作流挑战

最近两年，大模型技术在企业内部的应用越来越广泛。但很多企业由于数据安全考虑，要求AI系统必须运行在内网隔离环境中。这就带来了一个棘手的问题：当我们需要更换底层大模型引擎时，如何在不连接外网的情况下完成平滑迁移？

去年我负责的一个项目就遇到了这种情况。我们最初使用Xinference部署了14B参数的模型，运行在Dify平台上。后来为了支持更大的30B参数模型，需要切换到vLLM推理引擎。整个过程就像在密室里换发动机，既要保证系统不停机，又不能有任何外部支援。

内网环境下最头疼的就是依赖管理。比如vLLM需要特定版本的CUDA驱动，而我们的服务器已经运行着其他AI服务。直接升级可能会导致现有服务崩溃。我们最终采用的方案是使用Docker容器隔离环境，这样新旧引擎可以并行运行一段时间。

2. 模型引擎的技术选型

2.1 Xinference与vLLM的对比

Xinference最大的优势是开箱即用。它内置了模型市场，可以像手机应用商店一样一键下载流行模型。但在我们的场景下，这个优点反而成了缺点——内网环境根本无法访问它的模型仓库。

vLLM则更像一个"裸"推理框架。它不提供现成模型，但支持各种自定义模型格式。实测下来，vLLM的推理效率确实更高。以30B参数的Qwen3模型为例，在相同硬件配置下，vLLM的吞吐量比Xinference高出约40%。

这里有个技术细节需要注意：vLLM对AWQ量化模型的支持最好。我们测试发现，4bit量化的30B模型，在vLLM上运行时显存占用可以控制在24GB以内，两块RTX4090刚好够用。

2.2 模型格式的转换技巧

从Xinference切换到vLLM，最大的障碍是模型格式不兼容。我们采用的方案是：

在外网环境下载原始模型（.safetensors格式）
使用autoawq工具进行量化转换
将转换后的模型目录整个打包拷贝到内网

转换命令示例：

标签

#Dify #大模型 #内网部署

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。