
订阅
0有用+1
定义
播报编辑
音频流是指将声音信号转换为数字信号后,以实时或连续的字节流形式进行传输、处理和播放的技术过程 [12]。音频“流式传送”是指在运行时应用程序提供组成音频数据的字节流 [3]。
其核心在于实现从声源到播放设备的端到端数字信号处理 [1],通常依赖数字音频接口进行传输 [12],涉及音频采集、编码、网络流式传输、本地缓冲、解码及硬件加速处理等关键技术环节 [4] [6],旨在保证音频质量的同时实现低延迟和高抗干扰性 [4] [12]。
发展历程
播报编辑
Sound Terminal数字音频流概念旨在实现从声源到扬声器的全数字流处理,应用于平板电视等设备 [1]。2008年,意法半导体为Sound Terminal系列新增集成高效音频编解码器的STA331音频处理器,扩展了应用范围 [5]。2016年,意法半导体推出采用FFX™技术和BCD8工艺的STA370BWS,成为新一代Sound Terminal产品组合的首款产品 [11]。嵌入式音频处理技术持续发展,2025年在实时传输优化和硬件加速架构方面取得进展 [4]。
技术原理
播报编辑
音频流的技术实现涉及硬件接口、芯片架构、操作系统支持及软件接口等多个层面 [4] [7] [9] [13]。其核心目标是实现音频数据的高质量、低延迟同步传输与处理 [4] [12]。
硬件接口与传输协议
在硬件层面,I2S是一种专为数字音频设计的串行总线协议,广泛用于音频编解码器、微控制器和音频处理芯片之间的数据传输。它通过帧时钟、位时钟和数据线三根核心信号线完成音频数据的同步传输。为提升抗干扰能力和传输距离,差分信号传输技术被引入,它通过两根导线传输互补信号,并通过检测电压差提取原始数据。进一步的“差分I2S”接口将I2S的单端信号升级为差分对,结合了两者的优势 [7]。数字音频接口如I2S、PCM、TDM等,共同构成了板级或板间传输数字音频信号的主要方式 [8] [12]。
芯片处理架构
现代音频处理芯片常采用异构计算架构以平衡性能与能效。例如,专用音频DSP用于执行FFT、滤波等密集计算,其能效比远高于通用处理器 [4]。一些先进的音频编解码器集成了嵌入式miniDSP核心,能够直接访问数字音频流并运行主动降噪、声学回声消除等复杂算法 [8]。此外,硬件音频编码器的集成可进一步降低编码延迟 [4]。这种从音频源到扬声器的全数字处理链路,有助于提升音频性能并减小系统尺寸 [1]。
操作系统与子系统支持
操作系统层为音频流处理提供了统一的接口和子系统 [3] [9] [13]。在Windows环境中,曾提供IAudioMediaStream等音频流式处理接口来控制音频流和数据格式 [9]。在Linux系统中,ALSA是默认的音频子系统,它通过PCM设备文件管理音频流的捕获与播放,并允许通过配置调整缓冲区大小以优化延迟 [13]。
软件接口与回调机制
音频流函数用于播放大尺寸数字音乐或进行动态音频处理。其编程接口通常包括创建、销毁音频流及管理数据缓冲区的函数,例如用于创建并开始播放音频流,用于撤销音频流,用于获取待填充数据的缓冲区地址,用于指示新数据已就绪。在更广泛的实时音频应用中,音频流处理通过明确的回调接口实现。通常包括:本地采集回调,提供未经处理的原始PCM音频数据;发送前回调,提供经过编码、3A处理及可能混音后的最终发送数据;远端接收回调,提供所有远端用户混音后、播放前的PCM音频数据。这些回调允许开发者在音频数据流转的关键节点插入自定义处理逻辑 [6]。
应用领域
播报编辑
意法半导体的Sound Terminal™系列全数字音频芯片,集成了数字音频处理、放大和控制功能,可用于空间受限的音频应用。该系列芯片适用于平板电视、MP3 docking stations等设备。其关键技术包括全灵活放大(FFX)和集成高级DSP处理功能 [1]。
该系列包含适用于不同通道配置的型号 [2] [11]。有相应的评估板用于展示和评估芯片方案的性能 [10]。
在汽车音响系统等复杂电磁环境中,常采用差分信号或差分I2S接口来传输未压缩的I2S音频流,以提升抗干扰能力和传输距离。例如,宝马iX车型采用TI的TLV320AIC3254音频编解码器通过差分I2S接口连接主控芯片与扬声器模块 [7]。
此外,在语音交互领域,音频流处理技术是实现低延迟语音识别与合成的关键。例如,在嵌入式Linux系统中,通过优化ALSA音频子系统配置,可实现端到端延迟低于300ms的语音交互链路 [13]。
流媒体
播报编辑
定义
流媒体就是指在网络上使用流式传输技术的连续时基媒体,是通过网络传输的音频、视频或多媒体文件。关键是流式传输技术,流式传输主要指通过网络传送媒体(如视频、音频)的技术总称,其特定含义为通过网络将影音节目传送到PC单机。
常用格式
网络上常见的流格式音频的格式主要有美国Realnetwork公司的*.RA格式和微软公司的*.WMA格式,另外还有一个多用于专业领域的美国苹果公司*.MOV格式,在这三种格式中,MOV格式的音质是最好的,特别是MIDI方面,支持GS和GM两种音色,播放效果要明显的强于Windows media player,下面就给大家详细的介绍这几种格式的特点:
RealAudio格式
这是美国RealNetwork公司的一个元老级的产品,也是目前网上最流行的流式媒体技术。许多Internet的音乐台、视频点播站点都采用它。RealMedia其中包含RealAudio(声音文件)、RealVideo(视频文件)和RealFlash(矢量动画)这三类文件。
QuickTime与RealMedia一样,完合兼容于苹果机与PC机。在同样网速和文件大小的情况下,它的音像品质是最好的。它由三个不同部分所组成:QuickTime Movie(电影)文件格式,QuickTime媒体抽象层、QuickTime内置媒体服务系统。
Windows Media Audio格式
WMA(Windows Media Audio)是来自于微软的重量级选手,它的前身是微软公司的Netshow,后台强硬,也是为数众多Windows使用者最为熟悉的,它的核心技术是ASF(Advanced Streaming Format,高级流格式)。ASF格式支持任意的压缩/解压缩编码方式,并可以使用任何一种底层网络传输协议,具有很大的灵活性,比较MPEG之类的压缩标准增加了控制命令脚本的功能,它以减少数据流量但保持文件质量的方法来实现流式多媒体内容发布。
网络上风行的FLASH虽然是矢量动画技术,可是它一样的可以包含声音信息,也支持流式传输,高品质FLASH的SWF格式文件声音更加出众,而且文件体积更小,也有使用这种技术做的音乐网站,在欣赏的时候需要你安装一个FLASH的插件,以2013年的网络速度而言,区区几百KB的FLASH插件一会儿的工夫就可以安装完成,然后你就可以欣赏SWF格式的音乐了。
流媒体传输协议
1、即时串流通讯协议(Real Time Streaming Protocol,RTSP):是RealNetworks公司协助建立的一个用来传送串流媒体的开放网页标准。虽然它必须使用一种称为RealServer的特殊服务器,然而RTSP能够提升流式媒体影片的品质,改善传送效率以及提供更佳的高流量处理功能。如果你的ISP具备了RealServer服务,那么建议你使用RealServer而不要使用Web服务器来传送串流媒体档案。
3、实时传输协议(Theater Server protocol,RTP):这是用于Internet上针对多媒体数据流的一种传输协议。RTP被定义为在一对一或一对多的传输情况下工作,其目的是提供时间信息和实现流同步,通俗的说也就是网络上的WEB服务器。
4、资源预订协议(ResourceReserveProtocol,RSVP),由于音频和视频数据流比传统数据对网络的延时更敏感,要在网络中传输高质量的音频、视频信息,除带宽要求之外,还需其他更多的条件。RSVP是正在开发的Internet上的资源预订协议,使用RSVP预留一部分网络资源(即带宽)。
这些协议代替了http和ftp,而是像mms://61.139.25.41/quake,以MMS或RTSP等开头。
播放器
以上三种格式各有各的播放器,它们分别是RealPlayer、QuickTime Player和Windows Media Player。
1、RealPlayer
Real格式具有很高的压缩比和良好的压缩传输能力,特别适合网络上播放或是在线直播方式,在视频流媒体格式中RM格式是素质最差的,可是文件也是最小的,低速网用户(非ADSL和宽带网用户)也可以很轻松地在线欣赏视频节目。RealPlay播放器使用也非常方便,系统的资源占用在其他二者之间,是低配置用户的最好选择。凭着ReaNetworks公司优秀的技术,它已占领了半数以上的网上流式视音频点播市场。
2、QuickTime Player
QuickTime Player可以通过Internet提供实时的数字化信息流、工作流与文件回放功能。QuickTime文件的素质极高,缺点是文件个头比较大,当然,高清晰、高质量的画面往往就意味着更大尺寸的文件,更多的传输时间。正因如此,在网络上QuickTime只能用做一些多媒体广告、产品演示、高清晰度影片等需要高清晰表现画面的视频节目上。在网络速度不流畅的地方观看起来有些吃力,而且QuickTime Player的系统资源占用较高,要求你的机器配置较好才能胜任,最好是拥有快速CPU和更大容量的内存的高性能电脑。
现在QuickTime PLAYER的最新版本是5.0,注意,QuickTime Player播放器可不是免费的,大家可以到苹果公司的主页上去下载。
3、Windows Media Player
WMA的播放器使用Windows自带的Windows Media Player就可以了,WMA格式音乐的一大特点不需要额外的播放器,你在“开始-程序-附件-娱乐”中就可以找到它的身影。其制作、发布和播放软件也与Windows NT/2000/9x集成在一起,更加强大的是Windows Media增加了版权保护功能,可以限制播放时间、播放次数甚至于操作系统等,这对于被盗版搅得焦头乱额的音像出版商们可是一大福音。WindowsMedia文件比起RealMedia文件大些,在线播放状态下比QuichTime可以获得更快、更流畅的效果。
相关技术
播报编辑
分类与处理技术
连续音频流分类技术旨在从音频流中提取并切分语音、音乐等不同类型片段,为音频流结构化和音频信息深度分析和利用提供了坚实的基础,可用于自动语音识别、基于内容的音频检索、视频镜头自动分割和分类、音频内容理解、音频监测和音频场景分析等领域。
Allegro库提供了音频流编程接口用于播放大到不能放在常规SAMPLE结构里的数字音乐,例如函数用于创建并开始播放音频流,函数用于获取下一个缓冲区地址以载入采样声音数据,函数则用于指示新数据已准备播放。
传输与接口协议
在嵌入式系统中实现低延迟音频流传输,需采用Opus编码器优化带宽,动态调整抖动缓冲区(典型值20-100ms),以及利用RTP协议时间戳与NTP时钟进行同步,确保多设备音频流同步误差小于5ms。 [4]
数字音频接口(DAI)如I2S、PCM、TDM等协议用于在板级或板间传输数字音频流,相比模拟接口具有更强的抗干扰能力和更简单的硬件设计。 [7] [12]差分信号传输技术(如差分I2S、SerDes)可提升I2S音频流在复杂电磁环境中的抗干扰能力和传输距离。 [7]
系统实现与编程接口
现代嵌入式音频处理器采用异构计算硬件加速架构,例如使用专用音频DSP执行FFT/滤波等密集计算,其能效比通用CPU高10倍;集成硬件编码器(如TI C674x DSP的AAC-LC编码模块)可实现编码延迟低于2ms。 [4]
在实时通信场景中,音频流处理回调机制包括获取经过3A处理及混音等效果后的本地发送音频数据、获取麦克风采集的原始音频数据,以及获取所有远端用户混音后的音频数据以供播放前处理。 [6]
Linux系统中通过ALSA(Advanced Linux Sound Architecture)架构管理音频流,可通过调整缓冲区大小(如buffer_size, period_size)来解决音频流同步延迟问题。 [13]
