Qwen3-VL → OpenVINO IR INT4 转换指南

🔥 工业级文档解析 FireRed-OCR Studio

FireRed-OCR Studio 是一款基于 Qwen3-VL (FireRed-OCR) 模型开发的下一代文档解析工具。它不仅能精准识别文字,更能完美还原复杂的表格结构、数学公式及文档布局,并将其转化为结构化的 Markdown 格式。 本应用采用 Streamlit 构建,视觉上延续了“明亮大气像素”的设计语言,为您提供直观、流畅的文档数字化体验。

环境要求

组件版本说明
Python3.11conda 环境 openvino2
openvino2026.1.0+pip show openvino
openvino-genai2026.1.0.dev+
transformers>= 4.57.0qwen3_vl 必须 ≥ 4.57.0;已验证 4.57.6
optimum-intel源码安装pip 版 2.1.0 不支持 qwen3_vl,需从 GitHub 源码安装

安装依赖

安装Openvino的nightly版本

pip install --pre openvino openvino-tokenizers openvino-genai --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly

从源码安装 optimum-intel

# 克隆或已有本地源码
# git clone https://github.com/huggingface/optimum-intel
# 从本地源码安装(--no-deps 避免覆盖已有依赖)
conda activate openvino
pip install -e D:\Projects\optimum-intel --no-deps

安装其他依赖

transformers==4.57.6 torch==2.10.0 torchvision==0.25.0+cpu

转换命令

基础 INT4(无校准数据,速度最快)

conda activate openvino
optimum-cli export openvino ^
 --model E:\models\Qwen3-VL-4B-Instruct ^
 --task image-text-to-text ^
 --weight-format int4 ^
 --group-size 128 ^
 --ratio 1.0 ^
 E:\models\Qwen3-VL-4B-Instruct-int4-ov

可选:更高精度(AWQ + 校准数据)

conda activate openvino
optimum-cli export openvino ^
 --model E:\models\Qwen3-VL-4B-Instruct ^
 --task image-text-to-text ^
 --weight-format int4 ^
 --group-size 128 ^
 --ratio 0.8 ^
 --awq ^
 --dataset wikitext2 ^
 --num-samples 128 ^
 E:\models\Qwen3-VL-4B-Instruct-int4-ov

--ratio 0.8 表示 80% 的层量化为 int4,其余保留 int8,精度更好但模型略大。

参数说明

参数说明
--task image-text-to-text必须显式指定,本地目录无法自动推断
--weight-format int4权重量化为 int4
--group-size 128每 128 个权重共享量化参数
--ratio 1.0全部层量化为 int4
--awqAWQ 算法,需配合 --dataset 使用

导出产物结构

转换完成后,输出目录包含以下 OV 子模型:

子模型文件输入输出说明
text_embeddings.xml/bininput_ids [B,L]inputs_embeds [B,L,2560]token 嵌入
vision_embeddings.xml/binhidden_states [N,C]last_hidden_state [N,1024]视觉编码器
vision_embeddings_merger.xml/binhidden_states [N,1024] + attention_mask + rotary_pos_emb [N,32]last_hidden_state [N,2560] + deepstack_feature_lists [3,N,2560]视觉特征融合
vision_embeddings_pos.xml/bininput [4,N]last_hidden_state [4,N,1024]视觉位置编码(推理路径不直接调用)
language_model.xml/bininputs_embeds [B,L,2560] + position_ids [3,B,L] + visual_pos_masks + deepstack_visual_embeds [3,N,2560] + beam_idxlogits语言模型主体

推理加载

from optimum.intel import OVModelForVisualCausalLM
from transformers import AutoProcessor

model_path = r"E:\models\Qwen3-VL-4B-Instruct-int4-ov"
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
model = OVModelForVisualCausalLM.from_pretrained(model_path, trust_remote_code=True)

您可能感兴趣的与本文相关的镜像

🔥 工业级文档解析 FireRed-OCR Studio

🔥 工业级文档解析 FireRed-OCR Studio

AI应用
OCR
PDF

FireRed-OCR Studio 是一款基于 Qwen3-VL (FireRed-OCR) 模型开发的下一代文档解析工具。它不仅能精准识别文字,更能完美还原复杂的表格结构、数学公式及文档布局,并将其转化为结构化的 Markdown 格式。 本应用采用 Streamlit 构建,视觉上延续了“明亮大气像素”的设计语言,为您提供直观、流畅的文档数字化体验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值