藏语语音识别模型Tibetan_ASR,微调whisper-small，藏语音频转文本。

wxs.04

721人浏览 · 2025-09-07 08:34:55

wxs.04 · 2025-09-07 08:34:55 发布

项目地址GitHub：链接

tibetan_ASR/README.md at master · wang0471/tibetan_ASR

通过迁移学习微调openai/whisper-small模型。

使用TTS合成音频，在原有的数据集上加入10%的合成数据。

使用多种数据增强，变速、调节音量、加入噪声、混响等方法。

使用[mask]掩码遮掩15%的音频，提高了模型的鲁棒性。

模型和推理代码可以直接下载使用。

以下是在陌生测试集上进行语音识别的部分示例

运行环境

python 3.9.0
pytorch 2.7.0
transformers 4.31.0
librosa 0.11.0

测试集上的mel谱图示例

AI硬件创业社区

智能硬件社区聚焦AI智能硬件技术生态，汇聚嵌入式AI、物联网硬件开发者，打造交流分享平台，同步全国赛事资讯、开展 OPC 核心人才招募，助力技术落地与开发者成长。

更多推荐

SmartDesk V1 硬件落地实录：立创 EDA 画图、手动布线与 DRC 踩坑

本文详细记录了从原理图设计到PCB打样的完整过程，分享了基于STM32F103C8T6的桌面控制器SmartDeskV1硬件开发经验。作者采用模块化设计思路，重点讲解了电源模块（Type-C供电与LDO稳压）、MCU最小系统、外设模块（编码器/OLED/传感器）等关键电路设计，并总结了PCB布局布线的心得（核心优先布局、USB差分处理、电源地平面优化）。文章还指出了设计中的两个遗憾（LDO发热问题

AI硬件创业社区

ESP32S3入门实验｜电位器调节LED亮度（ADC+PWM详解，适配新版Arduino内核）

🔥解决痛点：全网大部分教程为老旧ESP32内核代码，新版3.0+内核报错ledcSetup未定义，本文提供零报错、适配最新内核两套代码，通俗易懂，零基础可复刻。本次实验结合ADC模拟采集与PWM脉冲调光两大单片机核心功能：旋转电位器采集电压变化，实时改变LED输出亮度，实现无级调光，仿真台灯调光效果。ESP32、ESP32S3、Arduino单片机、科创实验、单片机入门、PWM调光、ADC采集、