Dify + 硅基流动实现“图片验证码识别“！

原创

已于 2025-05-24 17:41:44 修改 · 2.8k 阅读

标签

#ai #ocr #人工智能

于 2025-04-10 16:04:40 首次发布

Dify + 硅基流动实现"图片验证码识别"！

如果你需要自动识别验证码图片中的文字，可以用 Dify（低代码平台）和 硅基流动（AI 模型服务）快速搭建一个工作流，以下是完整步骤。

一、准备工作

1. 注册账号

Dify：访问 Dify 官网注册账号，创建一个工作空间。
硅基流动：通过注册链接注册，免费领取 2000万 Tokens（足够识别约10万次验证码）。

2. 配置 API 密钥

登录硅基流动控制台 → 点击左侧 API 密钥 → 创建新密钥，复制保存。
在 Dify 的 设置 → 模型供应商 中，选择 SiliconFlow，粘贴 API 密钥。

二、创建工作流

1. 新建空白工作流

在 Dify 工作台选择 新建应用 → 工作流，命名为“验证码识别”。

2. 添加输入节点

拖拽 输入节点 到画布，设置为 文件上传 类型，字段名填 captcha_image（用户上传验证码图片的地方）。

3. 调用 AI 模型识别

添加 模型调用节点，选择 Qwen/Qwen2-VL-72B-Instruct（支持图像和文本的多模态模型）。

配置参数：

输入变量：绑定 `captcha_image`（图片文件）
提示词：`识别图片中的验证码文本`

添加 输出节点，提取模型返回的 text 字段，显示为用户可读的验证码文本。

在这里插入图片描述

三、导入我的工作流（不想操作第二步的话）

如果不想进行第二步操作直接导入我的工作流就好。将以下代码复制保存为.yml后缀的文件，导入至Dify工作室中。

app:
  description: OCR文档识别与分析工具
  icon: 📝
  icon_background: '#F0F7FF'
  mode: workflow
  name: OCR-验证码识别
  use_icon_as_answer_icon: false
dependencies:
- current_identifier: null
  type: marketplace
  value:
    marketplace_plugin_unique_identifier: langgenius/siliconflow:0.0.8@217f973bd7ced1b099c2f0c669f1356bdf4cc38b8372fd58d7874f9940b95de3
kind: app
version: 0.1.5
workflow:
  conversation_variables: []
  environment_variables: []
  features:
    file_upload:
      allowed_file_exte