卷卷卷！新的开源多模态大模型王者来啦，从量化到部署用 lmdeploy 把它运行起来吧

最新推荐文章于 2026-03-03 09:36:59 发布

原创

最新推荐文章于 2026-03-03 09:36:59 发布 · 2k 阅读

标签

#llama #人工智能 #深度学习 #语言模型 #python

收录于

这是视频卷卷卷！新的开源多模态大模型王者来啦，从量化到部署用 lmdeploy 把它运行起来吧的笔记，请结合视频观看。

大纲

安装 modelscope 下载 internvl2 8b 的模型
安装最新的 lmdeploy
部署原始模型
模型量化
部署量化后的模型
测试 lmdeploy 的效果
使用 openai api 的方式部署并进行推理

安装 modelscope 下载 internvl2 8b 的模型

pip install modelscope

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('OpenGVLab/InternVL2-8B', cache_dir='autodl-tmp', revision='master')

安装最新的 lmdeploy

pip install lmdeploy[all] timm
pip install transformers==4.37.2

如果想要支持 flash attention 则需要安装 flash-attn

pip install packaging
pip uninstall -y ninja && pip install ninja
pip install flash-attn --no-build-isolation

注意这里不要直接使用 pip install flash-attn 来安装，否则会非常非常的慢。

使用 lmdeploy 部署原始模型

目前 lmdeploy 还没来得及更新对 internvl2 的支持，不过在未来的 0.5.1 应该就会支持。看了目前主分支上的代码，我草率

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

arkohut

关注关注

9
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【深度学习】InternVL2-8B，图转文，docker部署

q742971636的博客

07-17

1614

执行这个代码可以开启一个fastapi接口，7860端口会被docker映射到7895.InternVL2-26B应该更好，但显存没那么大，只能跑InternVL2-8B了。

1 条评论您还未登录，请先登录后发表或查看评论

Gradio Tunneling 支持固定域名啦

arkohut的博客

01-18

827

这里是视频的笔记。之前我介绍过一个小工具，它可以让非gradio创建的服务也使用gradio的--share功能。这个项目发布一年多以来，收到了不少反馈。这次更新主要解决了固定域名的问题。

基于华为昇腾910B，实战InternVL2-8B模型推理

OpenGVLab的博客

10-31

3700

在 0.6.0这个版本上开始支持华为昇腾NPU，本文主要讲述了如何使用 LMDeploy 推理框架在华为昇腾 910B 上实现 InternVL2-8B 模型的推理。LMDeploy 目前支持 InternVL1.5 和 InternVL2 系列的多模态模型，因为时间关系我这里只做了 2B 和 8B 模型的推理，其他模型没有做过测试。感兴趣的小伙伴也可以根据文档实现其它模型的推理和适配，我们也期待 LMDeploy推理框架支持更多更好用的多模态大模型。

详细记录swfit微调interVL2-8B多模态大模型进行目标检测（附代码）

07-31

6874

目标检测任务已经不是一个新鲜事了，但是多模态大模型作目标检测任务并不多见，本文详细记录swfit微调interVL2-8B多模态大模型进行目标检测的过程，旨在让更多人了解多模态大模型微调技术、共享微调经验。实际上，interVL2-8B多模态大模型在该任务上微调后的表现并不好。与此同时，我们还就电力巡检场景进行了微调测试，精度达到了80左右，其实也比较一般，综合来看，大模型其实并不那么擅长目标检测。此处引申一个结论，大模型在分类任务上表现则好得多，且提升精度微调是必要的。

InternVL2-8B模型MindSpeed-MM微调训练

DanteQiu62的博客

06-16

1052

如果转换权重过程中遇到包缺失，按照提示安装即可（如果timm缺失，安装过程中会自动将torch与torchvision更新，会导致与torch_npu版本不兼容，将torch降至2.1版本，将torchvison降至0.14.1版本即可）同步修改examples/internvl2/finetune_internvl2_8b.sh中的LOAD_PATH参数，该路径为转换后或者切分后的权重，注意与原始权重raw-ckpt/InternVL2-8B进行区分。过程中会自动拉取apex官方源码，请保证网络畅通。

【值得收藏】从零开始部署本地大模型：Ollama/vLLM/LMDeploy三大框架保姆级教程，小白也能秒变AI部署专家

2401_85154887的博客

12-18

1919

本文详细介绍了如何在本地部署大语言模型，对比了Ollama、vLLM和LMDeploy三大推理框架的特点和适用场景，提供了从模型下载到部署调用的完整教程。文章强调本地部署在数据安全和定制化方面的优势，并针对不同用户需求提供了选型指南，帮助小白也能轻松上手本地大模型部署。

LMDeploy：大语言模型部署领域的性能王者与生态先锋

gitblog_00693的博客

12-05

934

LMDeploy 作为由 MMDeploy 和 MMRazor 团队联合打造的开源项目，已成为大语言模型（LLM）和视觉语言模型（VLM）部署领域的标杆性解决方案。该项目托管于 GitCode 仓库，采用 Apache-2.0 开源许可证，自 2023 年 12 月创建以来，持续迭代优化，最新更新于 2025 年 2 月，展现出强大的生命力与活跃的开发社区。 ## 核心功能与技术优势 LMDe

【必藏】零成本本地大模型部署全攻略：Ollama/vLLM/LMDeploy三大框架保姆级教程

2401_85375186的博客

11-10

1615

章详述了如何在大模型本地化部署方面取得成功，对比了API与本地部署的优劣，介绍了Ollama(极简易用)、vLLM(高性能)和LMDeploy(全栈优化)三大推理框架的特点与适用场景。提供了国内外开源大模型下载指南，并针对三种框架给出详细部署教程，帮助读者实现数据安全、高效可控的本地大模型应用。

【必藏】零成本玩转本地大模型：从入门到精通三大推理框架部署指南(Ollama/vLLM/LMDeploy)

2401_85154887的博客

12-10

1229

文章详细介绍了大模型本地化部署的方法，对比分析了API与本地部署的优缺点，重点解析了Ollama、vLLM、LMDeploy三大推理框架的特点与适用场景。提供了国内外模型下载指南和保姆级部署教程，帮助开发者根据需求选择适合的框架，实现安全、高效、专属的大模型应用，无需依赖云端服务。

书生·浦语大模型实战营——LMDeploy 量化部署 LLM-VLM 实践

weixin_44219510的博客

04-12

951

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。

InternVL2-8B vs Qwen3-VL-8B：空间理解能力对比评测

最新发布

weixin_42389113的博客

03-03

580

本文介绍了在星图GPU平台上自动化部署Qwen3-VL-8B镜像，以评测其空间理解能力。该多模态模型能够精准解析图像中物体的复杂位置与遮挡关系，其核心应用场景包括为图片生成详细的文字描述，或为视障人士提供丰富的环境解说，显著提升AI的视觉交互质量。

Qwen3-VL与InternVL2-8B对比：GUI操作任务准确率实测

weixin_42284380的博客

01-17

863

本文介绍了基于星图GPU平台自动化部署Qwen3-VL-2B-Instruct镜像的实践，该模型在GUI操作任务中表现出色，可精准识别界面元素并生成可执行指令，适用于自动化测试、智能代理开发等场景，显著提升AI应用开发效率。

mPLUG-Owl3-2B与InternVL2-8B对比：2B模型在显存≤8GB设备上的唯一可行方案

weixin_42351520的博客

02-18

361

本文介绍了如何在星图GPU平台自动化部署🦉 mPLUG-Owl3-2B多模态交互工具镜像，实现高效的多模态AI应用。该镜像专为显存≤8GB设备优化，支持图像描述生成、视觉问答等轻量级任务，适用于个人学习、原型开发和教育演示等场景。

SOTA多模态大模型！13个开源模型汇总，附论文和代码

weixin_72959097的博客

09-19

2230

本文提出了一种名为MoE-tuning的新的大型视觉语言模型（LVLM）训练策略，该策略构建了一个参数数量多但计算成本恒定的稀疏模型，解决了多模态学习和模型稀疏性相关的性能下降问题。为了解决这个问题，本文提出了LEGO，一个语言增强的多模态定位模型，LEGO不仅捕捉全局信息，还在需要细致理解输入数据内部细节的任务上表现出色，具有精确的识别和定位能力。今天给大家汇总了13个开源多模态大模型，这些模型在各自的领域中刷新了多个SOTA记录，每个模型都将附上相关的论文和代码，一起看看多模态大模型的最新研究成果吧！

InternVL2模型部署实践（通过vLLM方式）

和光同尘的博客

10-15

5013

> /apprun/log/service.log”：将标准输出重定向到 /apprun/log/service.log 文件。“2>&1”：将标准错误输出重定向到与标准输出相同的地方，即 /apprun/log/service.log 文件。这通常是由于 libnvJitLink.so.12 和 libcusparse.so.12 之间的版本不匹配导致的。如果你的CUDA版本不同，也可以通过命令来更改vLLM的版本。在上面的输出中，Version 字段显示了 vllm 的版本号。

简单使用Gradio以实现内网穿透

IT菜鸟

10-22

1662

简单使用Gradio以实现内网穿透

（一）多模态大模型系列-InternVL2、InternVL2.5、InternVL3、InternVL3.5系列

昆兰.沃斯的博客

10-29

2919

以InternVL作为基础，介绍多模态大模型的训练、推理以及其它相关知识

【万字长文】【InternVL】InternVL2-26B模型部署全攻略

艰难困苦，玉汝于成。

09-27

6481

LMDeploy 是一个用于压缩、部署、服务 LLM 的工具包，由 MMRazor 和 MMDeploy 团队开发。

gradio-tunneling如何将无公网端口的内部服务代理到公网（2025-12-17亲测有效）

别忘了微笑

12-17

737

本文介绍如何使用隧道技术将内网服务安全暴露到公网，适用于阿里云魔搭、公司内网等场景。主要内容包括：1) 安装UV工具管理器；2) 使用gradio-tunneling建立隧道代理；3) 验证代理效果并测试HTTP服务；4) 实际应用示例和注意事项。文章强调该方案适合临时访问，提供安全建议和常见问题排查方法，并推荐Ngrok、Frp等替代方案。核心流程是安装工具后通过简单命令即可生成公网访问URL，但提醒生产环境需正规接入方案。