基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统

原创已于 2024-05-08 15:56:33 修改 · 1.1k 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #大模型 #LLM #文字识别

于 2024-05-08 15:52:50 首次发布

大模型专栏收录该内容

70 篇文章

订阅专栏

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

大模型应用向开发路径：AI代理工作流
大模型应用开发实用开源项目汇总
大模型问答项目问答性能评估方法
大模型数据侧总结
大模型token等基本概念及参数和内存的关系
大模型应用开发-华为大模型生态规划
从零开始的LLaMA-Factory的指令增量微调
基于实体抽取-SMC-语义向量的大模型能力评估通用算法（附代码）
基于Langchain-chatchat的向量库构建及检索（附代码）
一文教你成为合格的Prompt工程师
最简明的大模型agent教程
批量使用API调用langchain-chatchat知识库能力
langchin-chatchat部分开发笔记（持续更新）
文心一言、讯飞星火、GPT、通义千问等线上API调用示例
大模型RAG性能提升路径
langchain的基本使用
结合基础模型的大模型多源信息应用开发
COT：大模型的强化利器
多角色大模型问答性能提升策略（附代码）
大模型接入外部在线信息提升应用性能
从零开始的Dify大模型应用开发指南
基于dify开发的多模态大模型应用（附代码）
基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统

需求介绍

OCR甚至多模态大模型的图像文字识别，均存在一定的识别误差或提取结果格式不统一。
例如图像中文字为

MITSUBISHI ELECTRIC 三菱电机

但信息系统中只需要三菱作为关键字填入。

为解决该问题，应在具体应用场景下，外接规范信息。

具体实现

实际操作方案非常简单，如下提所示：
在这里插入图片描述
红框中内容即为外部接入信息，具体地可通过外设json等数据，通过程序读入对大模型prompt进行拼接进行实现。

这样，使大模型在文字提取的同时，利用大模型强大的语义对齐和理解能力对识别信息进行统一。

零一万物多模态接入测试

此处分享一个零一万物的使用案例，可自行根据案例修改prompt进行上述思路的实现。

import openai
from openai import OpenAI

API_BASE = "https://api.lingyiwanwu.com/v1"
API_KEY = ""

client = OpenAI(
    # defaults to os.environ.get("OPENAI_API_KEY")
    api_key=API_KEY,
    base_url=API_BASE
)


prompt = '''
### 任务：请问从图片识别设备品牌，该品牌从预设品牌中选取
### 预设内容如下：

'''

input_text = '''
预设品牌【三菱、西门子、施耐德、五菱】
'''


completion = client.chat.completions.create(
    model="yi-vl-plus",
    messages= [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "http://picture.gptkong.com/20240508/Value(HourOfDay,2)Value(MinuteOfHour,2)3eca9c4cd34019bac35849ccd85094.jpg"
                    }
                },
                {
                    "type": "text",
                    "text": prompt+input_text
                }
            ]
        }
    ]
)
print(completion.choices[0].message.content)