1. 内网环境下的Dify工作流挑战
最近两年,大模型技术在企业内部的应用越来越广泛。但很多企业由于数据安全考虑,要求AI系统必须运行在内网隔离环境中。这就带来了一个棘手的问题:当我们需要更换底层大模型引擎时,如何在不连接外网的情况下完成平滑迁移?
去年我负责的一个项目就遇到了这种情况。我们最初使用Xinference部署了14B参数的模型,运行在Dify平台上。后来为了支持更大的30B参数模型,需要切换到vLLM推理引擎。整个过程就像在密室里换发动机,既要保证系统不停机,又不能有任何外部支援。
内网环境下最头疼的就是依赖管理。比如vLLM需要特定版本的CUDA驱动,而我们的服务器已经运行着其他AI服务。直接升级可能会导致现有服务崩溃。我们最终采用的方案是使用Docker容器隔离环境,这样新旧引擎可以并行运行一段时间。
2. 模型引擎的技术选型
2.1 Xinference与vLLM的对比
Xinference最大的优势是开箱即用。它内置了模型市场,可以像手机应用商店一样一键下载流行模型。但在我们的场景下,这个优点反而成了缺点——内网环境根本无法访问它的模型仓库。
vLLM则更像一个"裸"推理框架。它不提供现成模型,但支持各种自定义模型格式。实测下来,vLLM的推理效率确实更高。以30B参数的Qwen3模型为例,在相同硬件配置下,vLLM的吞吐量比Xinference高出约40%。
这里有个技术细节需要注意:vLLM对AWQ量化模型的支持最好。我们测试发现,4bit量化的30B模型,在vLLM上运行时显存占用可以控制在24GB以内,两块RTX4090刚好够用。
2.2 模型格式的转换技巧
从Xinference切换到vLLM,最大的障碍是模型格式不兼容。我们采用的方案是:
- 在外网环境下载原始模型(.safetensors格式)
- 使用autoawq工具进行量化转换
- 将转换后的模型目录整个打包拷贝到内网
转换命令示例:


128

被折叠的 条评论
为什么被折叠?



