一、文章主要内容总结
该研究针对传统音频理解模型难以识别未训练类别、无法保留预训练语言模型文本理解能力、对含多音频概念的复杂音频片段理解不足等问题,提出了CoLLAT(Contrastive Locked Language and Audio Tuning) 框架。其核心是在冻结预训练文本编码器(如CLIP文本编码器)的前提下,通过对比学习实现音频-文本的细粒度对齐,从而构建兼具强音频理解能力与文本编码器原有优势的模型。
研究通过多维度实验验证模型性能:在音频分类(ESC-50、FSD50K等6个数据集)、跨模态检索(音频-文本、音频-图像等)、音频描述生成(AudioCaps数据集)、音频引导图像生成四大下游任务中,CoLLAT均达到当前最优水平。尤其是在含多音频概念的复杂片段理解上,显著超越CLAP、AudioCLIP等现有基线模型,同时无需重新训练依赖文本编码器的下游应用(如扩散模型)即可实现音频引导功能。
二、文章创新点
- 锁定文本编码器的联合缩放架构:首次提出在不微调预训练文本编码器的前提下,通过联合缩放音频编码器与文本编码器尺寸,解决现有模型中两者尺寸不匹配导致的性能瓶颈,既保留文本编码器的语言理解能力,又实现跨模态强性能。
- 细粒度音频-文本令牌级对齐:突破现有模型仅依赖全局嵌入对齐的局限,引入令牌级(token-level)对齐损失,通过跨注意力模块实现音频令牌与文本令牌的一对一映射,精准捕捉复杂音频中的多个细粒度概念。
- 多损失函数协同训练

订阅专栏 解锁全文

2935

被折叠的 条评论
为什么被折叠?



