基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径:AI代理工作流
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法
  4. 大模型数据侧总结
  5. 大模型token等基本概念及参数和内存的关系
  6. 大模型应用开发-华为大模型生态规划
  7. 从零开始的LLaMA-Factory的指令增量微调
  8. 基于实体抽取-SMC-语义向量的大模型能力评估通用算法(附代码)
  9. 基于Langchain-chatchat的向量库构建及检索(附代码)
  10. 一文教你成为合格的Prompt工程师
  11. 最简明的大模型agent教程
  12. 批量使用API调用langchain-chatchat知识库能力
  13. langchin-chatchat部分开发笔记(持续更新)
  14. 文心一言、讯飞星火、GPT、通义千问等线上API调用示例
  15. 大模型RAG性能提升路径
  16. langchain的基本使用
  17. 结合基础模型的大模型多源信息应用开发
  18. COT:大模型的强化利器
  19. 多角色大模型问答性能提升策略(附代码)
  20. 大模型接入外部在线信息提升应用性能
  21. 从零开始的Dify大模型应用开发指南
  22. 基于dify开发的多模态大模型应用(附代码)
  23. 基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统


需求介绍

OCR甚至多模态大模型的图像文字识别,均存在一定的识别误差或提取结果格式不统一。
例如图像中文字为

MITSUBISHI ELECTRIC 三菱电机

但信息系统中只需要三菱作为关键字填入。

为解决该问题,应在具体应用场景下,外接规范信息。

具体实现

实际操作方案非常简单,如下提所示:
在这里插入图片描述
红框中内容即为外部接入信息,具体地可通过外设json等数据,通过程序读入对大模型prompt进行拼接进行实现。

这样,使大模型在文字提取的同时,利用大模型强大的语义对齐和理解能力对识别信息进行统一。

零一万物多模态接入测试

此处分享一个零一万物的使用案例,可自行根据案例修改prompt进行上述思路的实现。

import openai
from openai import OpenAI

API_BASE = "https://api.lingyiwanwu.com/v1"
API_KEY = ""

client = OpenAI(
    # defaults to os.environ.get("OPENAI_API_KEY")
    api_key=API_KEY,
    base_url=API_BASE
)


prompt = '''
### 任务:请问从图片识别设备品牌,该品牌从预设品牌中选取
### 预设内容如下:

'''

input_text = '''
预设品牌【三菱、西门子、施耐德、五菱】
'''


completion = client.chat.completions.create(
    model="yi-vl-plus",
    messages= [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "http://picture.gptkong.com/20240508/Value(HourOfDay,2)Value(MinuteOfHour,2)3eca9c4cd34019bac35849ccd85094.jpg"
                    }
                },
                {
                    "type": "text",
                    "text": prompt+input_text
                }
            ]
        }
    ]
)
print(completion.choices[0].message.content)

其中,需通过如下语句配置环境:

pip install openai

通过如下地址获取自己图片的url(不保障一直有效,这个随便找个能上传图像的web页面均可获取图片url):

https://www.bamuwu.com/sqrcode

通过零一万物官网注册账号获取自己的API KEY即可:

https://platform.lingyiwanwu.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

德讯软件(欢迎合作)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值