唱歌就能画一幅图像？ #whisper-to-stable-diffusion

最新推荐文章于 2026-06-29 21:19:11 发布

原创最新推荐文章于 2026-06-29 21:19:11 发布 · 500 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#stable diffusion #语音识别 #人工智能

收录于

OpenAI的Whisper模型能高效识别口音和噪声中的语音，转化为文本，随后StableDiffusion依据文本生成图像，实现语音输入到图像输出的转换。用户只需录制音频，经过模型处理，即可得到相应的图像。这是一个将AI技术应用于多模态生成的实例。

现在热门的不仅是多模态的文本图像生成，前阵子，OpenAI 发布了一个自动语音识别系统 Whispe 。在处理口音、背景噪声以及技术术语方面，Whisper 几乎达到了人类的水准。

那么将 Whisper 与 Stable Diffusion 结合，可以直接完成语音生成图像的任务。用户可以语音输入一个短句，Whisper 会自动将语音转化为文本，接着，Stable Diffusion 会根据文本生成图像。

步骤

第一步：录制音频或上传音频文件

图片来源：huggingface

第二步：检查语言输出，必要时进行更正

图片来源：huggingface

第三步：等待1~10秒，直到有稳定的扩散结果

图片来源：huggingface

简单概况一下，Whisper 是一个通用的语音识别模型，它是在各种音频的大型数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Stable Diffusion 是一个通过文本生成图像的模型。

将它们们结合起来，你就可以通过语音来直接生成图像。

不如现在就试试看:

https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

社群，请添加客服

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shadowcz007

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

90行代码轻松实现！结合 Whisper + Stable-diffusion 的语音生成图像任务！

Jina AI 的博客

11-24

8710

本项目基于JinaAI MLOps平台搭建，通过使用 DocArray 跨越了不同数据类型之间的鸿沟，减少了应用的数据传输成本。同时使用 Jina 搭建了一个云原生的基于微服务的 Pipeline，并且很容易就能部署到 Kubernetes 系统中。

参与评论您还未登录，请先登录后发表或查看评论

现在，用音频也能指挥GAN生成图像了

量子位

11-01

699

丰色发自凹非寺量子位报道 | 公众号 QbitAICLIP大家都不陌生吧？由OpenAI于今年1月份推出，能够实现文本描述与图片的精准匹配。现在，有人“灵机一动”，从CLIP中学习了...

语音信号生成语谱图

MachineLP的专栏

01-04

1万+

Matlab程序： mkdir('shengputu');%创建保存声谱图的文件夹 file = '/Users/liupeng/Desktop/matlab/speechRecognition/classical10s/'; % 语音文件夹 file1 = strcat(file, '*.wav'); file2=dir(file1);%搜索.au 后缀的文件 k=length(file2

语音识别（一）：绘制图像

smart boy

06-11

1035

1、读取和绘制音频数据波形文件：wav，时间函数 # -*- coding: utf-8 -*- import os import sys import platform import numpy as np import scipy.io.wavfile as wf import matplotlib.pyplot as mp def show_signal(sigs,samp...

机器学习之语音生成&&音乐生成

热门推荐

ljp1919的专栏

10-18

2万+

第一部分，语音生成简介该网络基于给出的样本和附加的条件参数以条件概率的方式产生新的样本，每一个音频样本的预测分布的前提是基于给定的所有先前的样本。在音频预处理步骤之后，输入的波形被归一化在一个固定的整数范围之内。该整数幅值范围通过热编码产生一个由于num_samples和num_channels组成的张量。接收当前输入和历史输入的卷积层可以对通道进行降维。该网络的核心部分是由一序列的因果扩张层（

仅用语音生成人体姿态，代码已开源

我爱计算机视觉

07-14

1892

本文转载自机器之心。机器之心报道参与：杜伟、魔王只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了！你能看出上图中的人物姿势是仅基于一段语音生成的吗？基于语音生成上半身动作甚至全...

2026主流生图模型横评：GPT-Image 2 vs. Midjourney v7 vs. Stable Diffusion 3

2601_96168718的博客

06-24

646

2026年AI生图赛道全面进入"生产级"时代，GPT-Image 2、Midjourney v7、Stable Diffusion 3三大模型各占山头。本文基于50+实测案例，从出图质量、中文适配、上手难度、商用授权、生成速度、价格成本六个维度硬核横评，帮你找到最适合自己的那

beginner_Stable Diffusion 文生图原理与实践：从零生成第一张 AI 图像

QQ_778132974的博客

06-26

本文系统介绍了Stable Diffusion文生图技术原理与实践方法。核心内容包括：1）扩散模型原理类比（正向加噪/反向去噪）；2）环境配置与模型下载指南；3）Prompt编写技巧与结构公式；4）关键参数调优策略（CFG、Steps、Sampler等）；5）常见问题解决方案。文章通过可视化流程图和代码示例，帮助读者快速掌握从基础操作到进阶调参的全流程，强调理解"扩散-条件-采样"三要素的重要性。最后提供了从文生图到风格定制、精准控制的进阶学习路线图。全文兼具理论深度和实践指导价值，适合AI图像生成入门者阅

SenseVoiceSmall区分说话人语音识别在通话录音转写中的优化

Luke Ewin的博客

06-25

266

这是关于阿里开源的FunASR部署SenseVoiceSmall模型并准确区分说话人的一篇文章，主要记录如何提升区分说话人的准确率，以及如何在生产中提高SenseVoiceSmall的并发能力。

OpenAI Whisper内网无网络环境运行 | 开源Whisper本地化部署运行 | 语音识别ASR本地化

Luke Ewin的博客

06-23

271

摘要：OpenAI开源的Whisper是一个强大的多语言ASR（自动语音识别）工具，支持100种语言（国内支持普通话和粤语），具备语音转写、标点添加、语种识别和翻译功能。该项目提供多种模型选择（如tiny、base、small、large系列），推荐使用优化后的large-v3-turbo模型（需8GB显存）。软件提供Windows可执行程序，支持CPU/GPU运行（GPU需英伟达CUDA）。Whisper基于68万小时数据训练，集成多项功能，但也有资源需求较高的缺点。可以自动批量生成视频字幕srt文件

鸿蒙语音识别的 Flutter ↔ ArkTS 完整调用链：权限申请、引擎生命周期与结果回传的时序问题

weixin_39706922的博客

06-25

620

语音识别是鸿蒙 Core Speech Kit 的核心能力之一，在 Flutter 鸿蒙项目中的接入涉及 ArkTS 侧的权限申请、ASR 引擎生命周期管理、识别结果回传，以及 Flutter 侧的调用时机控制。本文以食界探味的 SpeechRecognitionPlugin 为例，逐行拆解从 Flutter 发起调用到收到识别文本的完整链路，重点分析 pendingResult 模式和引擎生命周期的时序问题。

康复设备语音芯片方案：串口控制+数码管显示WT588F02KD-32N实战

Waytronic_的博客

06-24

360

《WT588F02KD-32N语音芯片赋能智能康复设备升级》摘要：随着健康需求增长，传统康复设备存在操作复杂、缺乏交互等问题。深圳唯创知音推出的WT588F02KD-32N语音芯片创新性集成语音导航与数码管显示功能，为康复设备提供智能解决方案。该芯片支持170秒高音质语音存储、32级音量调节，内置16位数码管驱动模块，通过UART串口即可实现语音播放、治疗模式切换及倒计时显示。典型应用如经络通治疗仪，可实现语音引导、实时状态反馈和广告植入功能。方案优势在于单芯片集成降低设计复杂度，支持语音自定义下载，兼具

EP_VLA_大语言模型与音频输入的结合方式

eillot_qian的博客

06-26

385

音频输入与大语言模型（LLM）结合的三种主流方案，行业标准分为。

A-59F多功能语音模组：扩音防啸叫+双波束，智能对讲全场景解决方案

核心.智慧.创造.xhc.tina

06-25

248

1. 本地扩音防啸叫：独有特色功能15ms超低延迟，说话自然无回音感完全抑制啸叫，音量再大也不怕AI降噪加持，扩音同时压噪声窗口对讲、喊话器、会议扩音的福音2. 双麦波束成形：定向拾音精准可控单波束模式：定向拾音，压制环境噪声双波束模式：两个独立波束，双声道独立输出波束角度和范围可配置车载对讲、会议对讲、翻译设备的利器3. 核心性能拉满：降噪+消回音双优100dB AEC + 100ms延迟容忍，搞定回音45-90dB AI ENC，各种噪声都能压。

端到端语音对话(Qwen2.5-Omni)真打不过级联ASR+LLM+TTS?RTX 4090 单卡实测全记录

原罪的博客

06-29

189

关键词:Qwen2.5-Omni、端到端语音对话、speech-to-speech、SenseVoice、CosyVoice2、级联语音、RTX 4090、本地部署、显存 OOM、RTF一句话结论:在口径下,Qwen2.5-Omni-7B 端到端 speech-in→speech-out 完整回复要,而 SenseVoice + LLM + CosyVoice2 级联只要——端到端反而更慢。但端到端"真的听懂了你的情绪",而且 24G 单卡跑它。

企业级AI知识引擎：05音频语音识别

06-23

517

构建可搜索、可沉淀、可生长的私人智库。全程本地运行，隐私无忧，成本可控，断网可用。让沉睡的录音被唤醒，让声音成为你的第二大脑。

Jetson 音频/语音处理：Whisper 语音识别与 TTS

谁念西风独自凉

06-26

202

功能方案延迟语音识别<1s语音合成<2s唤醒词Porcupine<100ms实时转写<3s：比 OpenAI Whisper 快 4x，支持 FP16GPU 加速：Whisper 和 TTS 都可以用 GPU 推理VAD 过滤：语音活动检测减少无效推理Porcupine：低功耗唤醒词检测，适合常开场景。

多子品牌、多产品线实体区分，避免站内权重互相稀释

SEO_juper的博客

06-26

2757

2026 年谷歌 AI 实体检索、知识图谱体系下，多子品牌、多产品线站点天然存在权重稀释、实体模糊、关键词内耗三大运营隐患，很多站点盲目扩充产品与品牌页面，却忽略实体隔离底层优化，导致外链、内容投入无法转化为对应流量收益。整套实体区分、权重收拢体系逻辑分为四层递进动作：第一，搭建二级分层隔离 URL 架构，从页面存放路径切割不同业务实体；第二，配置差异化 Organization、ProductGroup 结构化数据，给谷歌提供机器可读的独立实体标识，搭配 LinkedIn 外部档案完成交叉核验；

15_项目实战一_用LangChain搭建个人知识库问答助手