LongCat-Audio-Codec: An Audio Tokenizer and Detokenizer Solution Designed for Speech Large Langua...

原创于 2026-06-24 12:30:00 发布 · 3 阅读

·

0

·

标签

#人工智能 #语音识别

LLM Daily 专栏收录该内容

2859 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

一、文章主要内容总结

本文提出了 LongCat-Audio-Codec，一种专为工业级端到端语音大语言模型（Speech LLM）设计的音频编码-解码方案，核心目标是平衡编码效率与解码质量，同时满足低延迟流式合成需求。

1. 核心背景与设计挑战

语音LLM的技术范式逐渐转向离散语音令牌，需同时兼顾理解任务（文本-语音跨模态关联）与生成任务（高保真、低延迟）的需求。
关键挑战包括：协调跨模态理解与实时生成效率、适配文本与语音的信息密度差异（语音令牌需更多上下文容量）、平衡码本数量与模型推理复杂度。

2. 核心架构设计

解耦式语义-声学令牌器：分别通过Transformer提取语义特征（捕捉长程依赖）、卷积层提取声学特征（增强对未见数据的鲁棒性），实现分层建模。
编码-解码器优化：编码器采用分段式设计，赋予令牌双向上下文感知；解码器支持流式解码，结合LSTM、因果卷积等结构，在低复杂度下实现高保真语音生成（保留语义和韵律信息）。
码本配置策略：语义编码限制在单个码本，声学编码采用自适应分组残差向量量化（AGRVQ），支持2-4个码本灵活配置，平衡信息容量与推理效率。

3. 多阶段训练策略

阶段1（编码器预训练）：基于5

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。