腾讯混元开源 HunyuanOCR:仅 1B 参数碾压 235B 大模型,四大基准 SOTA,端到端搞定文字检测/文档解析/信息抽取/视频字幕/拍照翻译!

腾讯混元开源 HunyuanOCR:仅 1B 参数碾压 235B 大模型,四大基准 SOTA,端到端搞定文字检测/文档解析/信息抽取/视频字幕/拍照翻译!

💡 腾讯混元出品,1B 参数 OCR 专家 VLM,四大基准全线第一:文本检测 70.92%(超 Seed-1.6-Vision 11 分)、文档解析 Edit Distance 0.042(超 PaddleOCR-VL / MinerU2.5 / dots.ocr)、信息抽取 92.29%(超 Gemini-2.5-Pro 12 分)、拍照翻译对标 Qwen3-VL-235B。6 大任务一个模型全搞定,20GB 显存即可部署,vLLM 一行命令启动。

在这里插入图片描述

📌 目录


1. HunyuanOCR 是什么?

HunyuanOCR 是腾讯混元(Tencent Hunyuan)出品的端到端 OCR 专家 VLM,基于混元原生多模态架构打造。

一句话总结

HunyuanOCR = 腾讯混元出品端到端 OCR 专家 VLM
           = 仅 1B 参数,四大基准全线 SOTA
           = 1 个模型搞定 6 大任务
           = 文字检测 + 文档解析 + 信息抽取 + 视频字幕 + 拍照翻译 + 文档 QA
           = 20GB 显存部署,vLLM 一行启动
           = 支持 100+ 语言,单语/混语均出色
           = CVPR 2026 主会论文 × 2
           = ICDAR2025 翻译赛小模型赛道冠军
           = 端到端 vs 传统级联方案,一步到位

为什么 1B 能碾压 235B?

通用 VLM 的问题:
  ❌ 啥都能干,但 OCR 不精
  ❌ 级联方案(检测→识别→后处理),误差累积
  ❌ 大模型参数多但 OCR 专项训练不足

HunyuanOCR 的解法:
  ✅ OCR 专家训练,数据质量和任务聚焦
  ✅ 端到端推理,一步到位,无级联误差
  ✅ 混元原生多模态架构 + 专项训练策略
  ✅ 1B 轻量部署,20GB 显存即跑

结果:
  1B HunyuanOCR > 235B Qwen3-VL(文档解析/信息抽取)
  1B HunyuanOCR ≈ 235B Qwen3-VL(拍照翻译)

2. 四大核心能力

💪 能力一:文字检测识别(Text Spotting)

功能:输出图片中所有文字内容及行级坐标

覆盖 10 大场景:
  📄 文档 · 🎨 艺术字 · 🏙️ 街景 · ✍️ 手写
  📢 广告 · 🧾 发票 · 📱 截图 · 🎮 游戏 · 🎬 视频

性能:Overall 70.92%,全场景最优
  - 游戏:73.54%(超 Seed-1.6-Vision 14分)
  - 手写:77.10%(超 Qwen3-VL-235B 8分)
  - 广告:75.34%(超 Seed-1.6-Vision 9分)
  - 截图:76.58%(超 BaiduOCR 8分)
  - 视频:77.31%(超 BaiduOCR 10分)

📑 能力二:复杂文档解析(Document Parsing)

功能:多语言文档数字化
  - 文字按阅读顺序组织 → Markdown 格式
  - 公式 → LaTeX 格式
  - 表格 → HTML 格式
  - 流程图 → Mermaid 格式
  - 其他图表 → Markdown 格式
  - 古文/古籍识别(七体汉字演进轨迹)

性能:OmniDocBench Overall 94.10%(全场最高)
  - 文本 Edit Distance: 0.042(最低,最准)
  - 公式: 94.73%(超 Qwen3-VL-235B 6.6分)
  - 表格: 91.81%(超 PaddleOCR-VL 1分)
  - Wild-OmniDocBench: 85.21%(超第二名 6分)
  - DocML 多语言: 91.03%(超第二名 9分)

🔍 能力三:开放域信息抽取(Information Extraction)

功能:从证件/发票/卡片中提取结构化字段
  - 支持自定义 Key(如"单价""发票号码"等)
  - JSON 格式输出,直接对接后端
  - 并行提取多个字段

性能:卡片 92.29% / 发票 92.53% / 视频字幕 92.87%
  - 卡片:超 Gemini-2.5-Pro 12分
  - 发票:超 Gemini-2.5-Pro 12分
  - 视频字幕:超 Seed-1.6-Vision 32分!

🌏 能力四:拍照翻译(Photo Translation)

功能:端到端拍照翻译
  - 图片 → 提取文字 → 翻译 → 一步完成
  - 支持 14 种常用小语种 → 中文/英文
  - 德语/西班牙语/土耳其语/意大利语/俄语
  - 法语/葡萄牙语/阿拉伯语/泰语/越南语
  - 印尼语/马来语/日语/韩语
  - 中英互译

性能:1B 参数对标 235B
  - Other2En: 73.38%(vs Qwen3-VL-235B 73.67%)
  - Other2Zh: 73.62%(vs Qwen3-VL-235B 77.20%)
  - DoTA en2zh: 83.48%(超 Qwen3-VL-235B 80.01%)

  🏆 ICDAR2025 文档端到端翻译赛小模型赛道冠军

🎬 附加能力:视频字幕提取

功能:自动提取视频字幕,包括双语字幕

性能:92.87%(远超第二名 Seed-1.6-Vision 60.45%)
  → 视频字幕是 HunyuanOCR 最强单项之一
  → 超第二名 32 分!断层式领先

3. 性能炸裂:四大基准 SOTA

基准一:文本检测(In-house Benchmark)

模型类型方法Overall文档游戏手写广告截图视频
传统方法PaddleOCR53.3870.2351.5956.3957.3863.3853.35
传统方法BaiduOCR61.9078.9559.2459.0666.7068.1867.38
通用VLMQwen3-VL-235B53.6243.7848.0068.9064.0145.9163.79
通用VLMSeed-1.6-Vision59.2355.0459.6867.4665.9959.8570.33
OCR专家HunyuanOCR70.9273.6373.5477.1075.3476.5877.31
→ Overall 领先第二名 9.02 分(BaiduOCR)
→ 游戏场景超 Seed-1.6-Vision 14 分
→ 手写场景超 Qwen3-VL-235B 8 分
→ 10 个场景中 8 个最优

基准二:文档解析(OmniDocBench + Wild-OmniDocBench,Edit Distance 越低越好)

模型类型方法参数OmniDoc OverallWild OverallDocML
通用VLMGemini-2.5-Pro-88.0380.5982.64
通用VLMQwen3-VL-235B235B89.1579.6981.40
模块化MonkeyOCR-pro-3B3B88.8570.0056.50
模块化MinerU2.51.2B90.6770.9152.05
模块化PaddleOCR-VL0.9B92.8672.1957.42
端到端DeepSeek-OCR3B87.0174.2357.22
端到端dots.ocr3B88.4178.0177.50
端到端HunyuanOCR1B94.1085.2191.03
→ OmniDocBench: 94.10%,超 PaddleOCR-VL 1.24 分
→ Edit Distance 0.042,全场最低(最准确)
→ 公式 94.73%,超 Qwen3-VL-235B 6.6 分
→ Wild-OmniDocBench: 85.21%,超第二名 6 分
→ DocML: 91.03%,超第二名 9 分
→ 1B 参数 > 3B/235B 模型!

基准三:信息抽取 + OCRBench

模型卡片发票视频字幕OCRBench
DeepSeek-OCR10.0440.545.41430
Qwen3-VL-2B67.6264.623.75858
Seed-1.6-Vision70.1267.5060.45881
Qwen3-VL-235B75.5978.4050.74920
Gemini-2.5-Pro80.5980.6653.65872
HunyuanOCR92.2992.5392.87860
→ 卡片:92.29%,超 Gemini-2.5-Pro 11.7 分
→ 发票:92.53%,超 Gemini-2.5-Pro 11.87 分
→ 视频字幕:92.87%,超 Seed-1.6-Vision 32 分(断层!)
→ OCRBench: 860(与 Qwen3-VL-235B 920 有差距,但兼顾专项更优)

基准四:拍照翻译

方法参数Other2EnOther2ZhDoTA en2zh
Gemini-2.5-Flash-79.2680.0685.60
Qwen3-VL-235B235B73.6777.2080.01
Qwen3-VL-2B2B66.3066.7773.49
PP-DocTranslation-52.6352.4382.09
HunyuanOCR1B73.3873.6283.48
→ 1B 参数 ≈ 235B Qwen3-VL(Other2En 仅差 0.29 分)
→ DoTA en2zh: 83.48%,超 Qwen3-VL-235B 3.47 分
→ ICDAR2025 翻译赛小模型赛道冠军 🏆

4. 快速上手部署

系统要求

🖥️ OS: Linux
🐍 Python: 3.12+
⚡ CUDA: 12.9
🔥 PyTorch: 2.7.1
🎮 GPU: NVIDIA GPU(CUDA 支持)
🧠 显存: 20GB(vLLM 推理)
💾 磁盘: 6GB

方式一:vLLM 部署(⭐ 推荐)

# 安装依赖
pip install vllm>=0.12.0
pip install -r requirements.txt

# 可选:安装 CUDA 兼容库
sudo dpkg -i cuda-compat-12-9_575.57.08-0ubuntu1_amd64.deb
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.9/compat:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

一键启动服务:

vllm serve tencent/HunyuanOCR \
    --no-enable-prefix-caching \
    --mm-processor-cache-gb 0 \
    --gpu-memory-utilization 0.2

推理代码:

from vllm import LLM, SamplingParams
from PIL import Image
from transformers import AutoProcessor

def clean_repeated_substrings(text):
    """清理重复子串(vLLM 推理已知问题)"""
    n = len(text)
    if n < 8000:
        return text
    for length in range(2, n // 10 + 1):
        candidate = text[-length:]
        count = 0
        i = n - length
        while i >= 0 and text[i:i + length] == candidate:
            count += 1
            i -= length
        if count >= 10:
            return text[:n - length * (count - 1)]
    return text

# 加载模型
model_path = "tencent/HunyuanOCR"
llm = LLM(model=model_path, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_path)
sampling_params = SamplingParams(temperature=0, max_tokens=16384)

# 构造输入
img_path = "/path/to/image.jpg"
img = Image.open(img_path)
messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字,将文本坐标格式化输出。"}
    ]}
]
prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = {"prompt": prompt, "multi_modal_data": {"image": [img]}}

# 推理
output = llm.generate([inputs], sampling_params)[0]
print(clean_repeated_substrings(output.outputs[0].text))

或使用官方脚本:

cd Hunyuan-OCR-master/Hunyuan-OCR-vllm && python run_hy_ocr.py

方式二:Transformers 部署

pip install git+https://github.com/huggingface/transformers@82a06db03535c49aa987719ed0746a76093b1ec4

⚠️ 注意:当前 Transformers 推理精度比 vLLM 稍低,官方正在修复中

from transformers import AutoProcessor, HunYuanVLForConditionalGeneration
from PIL import Image
import torch

model_name_or_path = "tencent/HunyuanOCR"
processor = AutoProcessor.from_pretrained(model_name_or_path, use_fast=False)
img_path = "path/to/your/image.jpg"
image_inputs = Image.open(img_path)

messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字,将文本坐标格式化输出。"}
    ]}
]

texts = [processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)]
inputs = processor(text=texts, images=image_inputs, padding=True, return_tensors="pt")

model = HunYuanVLForConditionalGeneration.from_pretrained(
    model_name_or_path,
    attn_implementation="eager",
    dtype=torch.bfloat16,
    device_map="auto"
)

with torch.no_grad():
    device = next(model.parameters()).device
    inputs = inputs.to(device)
    generated_ids = model.generate(**inputs, max_new_tokens=16384, do_sample=False)

input_ids = inputs.input_ids if "input_ids" in inputs else inputs.inputs
generated_ids_trimmed = [
    out_ids[len(in_ids):] for in_ids, out_ids in zip(input_ids, generated_ids)
]
output_texts = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_texts)

方式三:在线 Demo

直接访问:https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
→ 无需部署,上传图片即可体验
→ 适合快速测试和效果验证

5. 六大任务 Prompt 指南

任务Prompt 示例输出格式
📝 文字检测检测并识别图片中的文字,将文本坐标格式化输出。文本 + 坐标
📑 文档解析提取文档图片中正文的所有信息用markdown格式表示,其中页眉、页脚部分忽略,表格用html格式表达,文档中公式用latex格式表示,按照阅读顺序组织进行解析。Markdown + HTML + LaTeX
📄 通用解析提取图中的文字。纯文本
🔍 信息抽取提取图片中的: [‘单价’,‘发票号码’,‘总金额’] 的字段内容,并按照JSON格式返回。JSON
🎬 视频字幕提取图中的字幕文本
🌏 拍照翻译先提取文字,再将文字内容翻译为英文。若是文档,则其中页眉、页脚忽略。公式用latex格式表示,表格用html格式表示。翻译文本

信息抽取实战示例

Prompt:
  提取图片中的: ['单价', '上车时间', '发票号码', '省前缀',
  '总金额', '发票代码', '下车时间', '里程数']
  的字段内容,并按照JSON格式返回。

Response:
  {
    "单价": "3.00",
    "上车时间": "09:01",
    "发票号码": "42609332",
    "省前缀": "陕",
    "总金额": "¥77.10元",
    "发票代码": "161002018100",
    "下车时间": "09:51",
    "里程数": "26.1km"
  }

→ 一个 Prompt 搞定结构化抽取,无需后处理!

6. 竞品对比

对比维度HunyuanOCRdots.ocrPaddleOCR-VLDeepSeek-OCRMistral-OCRMinerU2.5
出品方腾讯混元小红书PaddlePaddleDeepSeekMistralOpenDataLab
参数量1B3B0.9B3B-1.2B
架构端到端端到端模块化端到端端到端模块化
文字检测70.92-----
文档解析(ED)0.0420.0480.0350.0730.1640.047
OmniDoc Overall94.1088.4192.8687.0178.8390.67
信息抽取-卡片92.29--10.04--
视频字幕92.87--5.41--
拍照翻译
语言支持100+多语言中英多语言多语言多语言
CVPR 论文2篇
显存需求20GB更高更低更高-更低
vLLM 支持✅ Day-0

最大差异化

1. 1B 参数 → 部署成本最低(20GB 显存)
2. 拍照翻译 → 唯一支持端到端拍照翻译的开源 OCR VLM
3. 视频字幕 → 92.87% 断层式领先(超第二名 32 分)
4. OmniDocBench → 94.10% 全场最高
5. CVPR 2026 × 2 → 学术顶会背书
6. ICDAR2025 冠军 → 翻译赛道验证
7. 端到端 vs 模块化 → 一步到位无误差累积
8. 14 种小语种翻译 → 国际化场景最强

7. 学术成果与生态

CVPR 2026 主会论文 × 2

📄 论文一:Towards Real-World Document Parsing
  via Realistic Scene Synthesis and Document-Aware Training
  → 真实场景合成 + 文档感知训练
  → arXiv: 2603.23885

📄 论文二:MMTIT-Bench
  → 多语言多场景图文翻译基准
  → arXiv: 2603.23896

开源基准

📊 Chronicles-OCR
  → 古文感知基准,覆盖"七体汉字"演进轨迹
  → 与故宫博物院、安阳师范学院联合构建
  → arXiv: 2605.11960

📊 ChartArena
  → 图表解析基准,支持多种图表类型
  → arXiv: 2606.01348

📊 Wild-OmniDocBench
  → 野生文档解析基准

📊 MMTIT-Bench
  → 多语言图文翻译基准

技术报告

📄 HunyuanOCR Technical Report
  → arXiv: 2511.19575
  → 详细介绍架构设计、训练策略、评估方法

8. 适用场景与优缺点

✅ 适合场景

🧾 票据/证件/发票信息抽取
  → 92.53% 发票准确率,JSON 直出
  → 替代传统 OCR + 正则后处理

📑 多语言文档数字化
  → 100+ 语言,Markdown/HTML/LaTeX 输出
  → 学术论文/合同/报告一键解析

🎬 视频字幕提取
  → 92.87% 准确率,双语字幕支持
  → 短视频/会议录像/在线课程

🌏 拍照翻译
  → 14 种小语种 → 中文/英文
  → 出行/旅游/跨境电商

🎨 艺术/手写/游戏文字识别
  → 10 大场景覆盖
  → 传统 OCR 搞不定的场景

📱 截图文字提取
  → 76.58% 准确率
  → UI 自动化测试/无障碍

⚠️ 注意事项

1. 仅支持 Linux 部署(无 Windows/macOS 支持)
2. 需要 20GB 显存(vLLM 推荐)
3. Transformers 推理精度暂低于 vLLM(修复中)
4. OCRBench 得分 860,低于 Qwen3-VL-235B 的 920
5. vLLM 推理存在重复子串问题(需 clean_repeated_substrings 处理)
6. CUDA 12.9 要求较新(需确认 GPU 兼容性)

9. 总结与推荐

推荐指数:⭐⭐⭐⭐⭐

维度评分说明
性能⭐⭐⭐⭐⭐四大基准 SOTA,1B 挑翻 235B
轻量⭐⭐⭐⭐⭐1B 参数,20GB 显存可部署
功能⭐⭐⭐⭐⭐6 大任务一个模型全覆盖
易用⭐⭐⭐⭐vLLM 一行部署,但仅 Linux
学术⭐⭐⭐⭐⭐CVPR 2026 × 2 + ICDAR 冠军
生态⭐⭐⭐⭐多个开源基准,vLLM Day-0 支持
国际化⭐⭐⭐⭐⭐100+ 语言 + 14 种小语种翻译

一句话推荐

如果你需要一个轻量但强大的 OCR 方案,HunyuanOCR 是 2026 年的最佳选择。

1B 参数,四大基准 SOTA,6 大任务全覆盖,20GB 显存部署,
拍照翻译独一份,视频字幕断层领先。

传统 OCR 方案可以退休了。

📢 项目地址:https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 模型下载:https://huggingface.co/tencent/HunyuanOCR
🎯 在线体验:https://hunyuan.tencent.com/chat/HunyuanDefault?modelId=HY-OCR-1.0
📄 技术报告:arXiv:2511.19575


相关链接


原文链接:https://github.com/Tencent-Hunyuan/HunyuanOCR
协议:按项目仓库 LICENSE

标签:#腾讯混元 #HunyuanOCR #OCR #文档解析 #VLM #端到端 #拍照翻译 #视频字幕 #信息抽取 #开源 #1B参数 #SOTA
分类:原创文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

guopeiAI

请博主加个火腿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值