2025_NIP_Mellow: a small audio language model for reasoning

在这里插入图片描述

文章核心总结与创新点

核心内容

本文提出小型音频语言模型Mellow,专为音频-文本推理设计,仅用1.67亿参数和152小时音频数据,在多项推理任务中达到当前小型模型最佳性能,甚至超越部分大模型。同时构建了ReasonAQA训练数据集,通过消融实验验证了模型架构、训练策略等关键因素对推理性能的影响。

创新点

  1. 提出首个聚焦推理的小型音频语言模型Mellow,参数规模仅1.67亿,却在MMAU等基准测试中与84亿参数的Qwen2 Audio性能相当(52.11分 vs 52.5分),且训练数据量减少60倍。
  2. 构建ReasonAQA数据集,包含100万音频问答样本,其中70%为LLM生成的合成数据,覆盖音频事件、声学场景等多维度推理需求,专门优化音频接地推理能力。
  3. 验证了不依赖数据扩展的推理优化路径,通过架构选择(如HTSAT音频编码器、SmolLM2语言模型)、非线性投影层设计和全微调策略,提升小型模型固有推理能力。
  4. 系统开展消融实验,明确了语言模型预训练质量、合成数据设计、投影层结构等关键因素对音频推理性能的影响,为小型音频语言模型研发提供参考。

英文原文翻译(Markdown格式)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值