007 MPEG-4 ALS与SLS音频格式

原创于 2026-06-20 17:14:16 发布 · 140 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#音视频 #视频 #硬件工程 #嵌入式硬件

闲话音视频专栏收录该内容

7 篇文章

订阅专栏

ALS（Audio Lossless Coding）与SLS（Scalable Lossless Coding），同属于MPEG-4框架下的无损音频编解码技术，是为了应对专业和高端应用而提出的通用技术方案。

虽然同属MPEG-4的无损编码框架，ALS与SLS的设计目标、技术路线与适用场景完全不同：

ALS：基于时域线性预测的纯无损编码方案，专门用于需要完全保留音频波形原始信息的高端场景，对压缩效率与工程稳定性的要求优先级高于其他指标；

SLS：基于频域整数改进离散余弦变换（IntMDCT）的分层式无损编码方案，采用 “有损基础层 + 无损增强层” 的架构，提供从有损到无损的码率自适应（Scalability）能力。

1、MPEG-4 ALS

MPEG-4 ALS 是由NTT实验室、柏林工业大学、RealNetworks 及新加坡科技研究局（A*STAR）等行业机构联合推进的，其核心目标是要满足专业级无损压缩的需求，压缩率在15%至70%之间。其中，NTT 实验室作为技术发起方，在核心算法层面提供了关键技术支撑；柏林工业大学负责验证跨平台兼容性；RealNetworks 提供了适用于网络传输的工程化优化方案。经MPEG工作组的多轮技术整合与标准投票，最终ALS的技术规范于2006年3月被正式纳入了ISO/IEC 14496-3 标准体系，成为国际通用的无损音频编码方案。

ALS的技术基础源于语音编码领域成熟的时域线性预测技术，这一技术已经在移动语音通信、IP 电话等场景中被长期验证，NTT实验室等机构将其适配到了高保真音频场景，开发出全新的编码架构。其整体编码架构由多个级联的核心处理模块组成，每个模块都针对音频信号的特定冗余维度进行优化。整个编码框架包括4个主要步骤：

※ 预处理与信号分解

ALS系统会根据输入信号的类型，分别采用差异化的预处理策略，确保信号的冗余度能被后续模块高效利用。

对于主流的整型PCM音频信号，预处理模块会将其分割为一系列连续的编码帧，每个编码帧的长度是可调整的，可根据音频信号的内容特征（如瞬态打击乐或长持续音的弦乐）选择最优的帧长，从而在后续预测环节中获得更高的精度；此外，还支持分层的编码模式，可在音频流中嵌入多个不同质量级别的增强层，以及灵活的随机访问模式，允许解码器在编码流中的任意位置开始解码，无需重新处理整个音频序列。

对于专业混音场景中常用的浮点型 PCM 信号，这类信号的样本值之间没有直接的关联冗余，无法直接通过线性预测压缩。ALS的预处理模块会将每个浮点样本分解为一个整数序列和一个剩余序列；随后，采用行业独创的近似公因数（ACF）技术，对整个帧的整数序列进行检测，提取序列中的相关冗余信息；最后，再用改进型 LZ * 编码技术对剩余序列进行进一步的无损压缩，从而整体提升浮点音频信号的压缩效率。

※ 多级线性预测

与FLAC、ALAC一样，线性预测是ALS去除音频信号冗余、实现高压缩比的关键步骤。通过三级级联的线性预测模块，从不同维度精准消除音频信号中的数据冗余。整个预测流程的核心逻辑是，通过历史样本值构建当前样本的预测值，再将真实值与预测值的差值（即预测残差）送入后续的熵编码模块，这一方式能最大限度降低需要编码的信号幅度。

第一级模块是短时前向自适应线性预测，其基本原理是通过之前的多个相邻真实样本值，对当前的样本值进行预测，再将真实样本值与预测值的差值传递给后续模块；编码器会根据信号的特性，在0阶到1023阶之间自适应调整预测模型的阶数，其中，低阶模型适合处理瞬态打击乐类的信号，高阶模型则适合处理持续音的弦乐类信号；在实际编码过程中，预测模型的系数会被转换为非常适合量化和稳定性检查的部分相关（PARCOR）系数，这是一套由日本电报电话公共公社（NTT）在1970年代发明的技术，能确保预测模型在音频信号的全频带范围内保持稳定，不会出现发散失真的情况。

第二级模块是长周期预测（LTP），经过短时预测处理后的残差信号，仍可能存在由音频信号的基频周期引起的相关性冗余。比如钢琴、吉他等乐器的振动衰减波形，会在固定的采样点间隔后出现相似的波形重复特征；长周期预测模块会在短时预测的基础上，从之前的多个历史参考样本中找到与当前信号周期匹配的最优延迟参数，并计算出相应的加权因子，进一步降低经过短时预测处理后的信号幅度。这一模块的存在，能将流行、古典等复杂音乐场景的压缩效率额外提升约10%。

第三级模块是多声道联合预测，消除多声道音频中不同声道间的波形相似冗余。比如在立体声或5.1环绕声音轨中，左声道和右声道的录制波形往往存在高度相关性，中置声道和环绕声道之间也可能存在同步录制的环境声冗余。编码器会自动对所有声道的信号进行相关性配对组合，计算每对声道之间的相对延迟参数和相应的加权因子，再通过差值编码的方式，进一步减少需要编码的信号数据量。

※ 熵编码

经过三级线性预测模块处理后，得到的预测残差信号幅度会被显著缩小，而且这一残差信号的概率分布高度集中在零值附近，非常适合进行熵编码。ALS采用了Rice编码方案，该方案专门针对音频预测残差信号的概率分布特性进行了优化。与传统的算术编码相比，Rice 编码的实现复杂度更低，对解码设备的算力要求也更低，但能能实现接近算术编码的压缩效率。在实际的编码流中，预测残差样本的Rice编码字节流，会与经过量化的PARCOR系数、长周期预测参数、多声道预测参数等边信息，按照ALS标准定义的固定格式复用打包，形成最终的ALS码流。这一设计确保了解码器能从码流中准确分离出所有必要的参数，无误差地重建出原始PCM音频信号。

※ 数据封装

与ALAC类似，ALS将其编码的音频流，映射到基于ISO基础媒体文件格式（ISO/IEC 14496-12）的MP4容器格式中，这一容器格式是目前行业中最通用的多媒体封装标准，可将压缩后的音频流与标准的 MPEG-4 视频流、其他格式的音频流，以及字幕、元数据等辅助内容进行同步封装。即ALS 编码的音频流，可以与现有的MP4格式生态体系完全兼容；更重要的是，在封装多声道音频流时，MP4容器能保留多声道的空间布局信息，以及音频制作相关的元数据内容，这对后续的音频编辑处理是非常有利的。

2、MPEG-4 SLS

MPEG-4 SLS由Fraunhofer IIS、杜比实验室、AT&T、Sony 等机构联合研发，其设计初衷是为了弥补ALS及其他非MPEG无损编码方案在 “从有损到无损的码率自适应” 这一场景下的技术短板。在SLS技术推出之前，行业中存在一个明确的技术痛点，就是内容提供商需要为不同带宽、不同档次的终端设备，分别提供有损和无损两套完全独立的音频文件，这意味着需要额外的存储和内容分发成本。而SLS的技术架构，恰好可以通过 “单码流多层化” 的结构解决这一问题。

SLS是通过一种分层化的技术架构，将主流的有损音频编码技术与无损音频编码技术的优势整合到同一条码流中，实现从低码率无损质量到高码率无损质量的连续过渡，让同一份音频内容可以同时适配从低带宽到高带宽的不同网络环境，以及不同档次的终端解码设备，实现 “一次编码，分层分发” 的灵活部署。

SLS的技术架构由基础层和无损增强层两部分组成。整个编码流程的核心技术目标，是将音频信号的高频细节和低频基础信息，分别适配到不同的编码层中；而整个架构的核心技术支撑，是一种被称为整数改进离散余弦变换（IntMDCT）的技术，这个技术是对传统改进离散余弦变换（MDCT）技术的一种关键改进，它的所有计算过程都采用整数运算，而非浮点运算，从技术机制上彻底避免了编解码过程中的舍入误差，保证了能对原始音频信号进行完全无损的重建。

※ 基础层

基础层采用了成熟的MPEG-4 AAC编码技术，是目前整个行业内普及率最高的有损音频编码技术，也是整个行业内生态兼容性最好的音频编码技术。输入的音频信号会先经过标准的 AAC 编码心理声学分析处理，去除人耳不敏感的音频细节，再通过 MDCT 变换到频域进行量化编码。

在实际应用时，内容提供商可以根据目标用户的基础网络覆盖能力，灵活地为基础层设置一个适中的固定码率，以保证在普通带宽环境下，也能传输音质优秀的音频内容。这一层的码流是完全独立的，任何支持AAC解码的终端设备，都可以单独解析这一部分码流，完成音频的高质量有损输出；同时这一码流也完全兼容现有的、成熟的AAC分发生态体系。

※ 无损增强层

这一层是对IntMDCT变换后的频谱残差数据进行编码。编码器会先对整段音频信号进行全局的IntMDCT变换，将其时域波形信号转换为频域的频谱系数数据；随后，将这些频谱数据中对应基础层编码的部分提取出来，与AAC基础层解码重建后的频谱信号做差值运算，得到一个残差频谱数据文件，这个残差频谱数据文件，记录了 AAC 基础层的有损信号与原始音频信号之间的所有误差补偿信息。这部分残差信息，构成了 SLS 的无损增强层的编码基础。

为了实现从有损到无损的精细粒度可伸缩性，SLS采用了比特平面编码技术，对残差频谱数据进行进一步的压缩处理，这是一种非常适合高质量音频传输场景的编码技术，它可以按从最高有效位到最低有效位的顺序，对残差频谱数据的每个比特平面进行分层编码。在实际的流传输应用中，服务器可以根据终端用户的网络带宽情况，实时对增强层的码流进行截断处理；而解码器端，只要接收到基础层和增强层的任意一段完整的比特平面，就能基于这些数据，输出对应质量级别的音频内容。

为了进一步提升增强层的编码效率，SLS还采用了两种编码技术的组合方案：比特平面 Golomb 编码（BPGC）和基于上下文的算术编码（CBAC）。其中，BPGC编码技术是基于几何分布的编码方案实现的，主要用于压缩低比特率和高频信息冗余度较高的音频内容；而 CBAC 编码技术的核心，是根据数据的上下文信息及局部统计特性，建立了多个不同的概率分布模型，再用这些模型对不同频段的比特平面信号进行精准的算术编码处理。这一组合方案，在保证编码效率的同时，也将编解码的算力开销控制在了合理区间。

3、ALS与SLS的对比

※ 核心压缩原理：ALS是基于时域线性预测的纯无损编码方案，它完全在时域内对 PCM 音频波形信号进行处理，不依赖任何有损编码的基础层；而SLS是基于频域 IntMDCT 变换的分层式无损编码方案，它的编码流程，必须先将信号从时域变换到频域，再进行分层编码，这一方案的核心优势，是能在同一个码流内，兼顾有损压缩和无损压缩的能力；

※ 多声道压缩策略：ALS 的多声道压缩策略，是基于时域的声道间预测技术实现的，是直接对多声道信号的时域波形进行匹配分析，寻找声道间的冗余进行差值压缩；而 SLS 的多声道压缩策略，是基于 AAC 的成熟的多声道编码技术实现的，是将声道间的冗余分析，整合到频域的编码流程中；

※ 对浮点音频信号的支持：ALS内置了对32bit浮点型PCM音频信号的原生处理能力，这是为了适配专业混音和母带处理场景的需求；而SLS的设计初衷，是适配消费级和部分专业级的高清音频分发场景，它的主要处理对象，是整型的PCM音频信号；

※ 无损压缩的码率成本：根据公开的客观测试数据，在编码相同时长、相同质量的立体声音乐素材时，ALS的压缩效率比SLS高约1%到5%；这意味着在存储相同质量的无损音频内容时，ALS 编码后的文件体积更小，对存储和传输带宽的需求更低。