1. 概要
AES 的三个标准采样率是 32kHz、44.1kHz、48kHz,演播室应用优先选择48kHz 取样且时钟同步于视频信号的音频,本文为 48kHz 同步音频。它同时提供2 个声道的音频数据,量化精度多采用 20 比特或者 24 比特,不仅仅能够单独的 传输单声道或者立体音频信息,同时也能够附带时钟基准信号与相关辅助信息等。
2. 标准
AES 结构如下图所示。在 AES 中,音频以通道对的形式存在。一个子帧包含有 32bits 数据排列在下面的格式中。2 个子帧构成一帧,192 帧又构成一块。子帧是音频编码打包过程中最小的单位,下面具体分析子帧构成。
子帧一共有 32 个时隙,前四个时隙 0-3 含有 3 个前置码,分别是前置码 X、
前置码 Y 和前置码 Z。
(1)前置码 X:表示除第一帧以外剩下帧传输的开始标志。
(2)前置码 Y:表示一个通道对中第二个通道的子帧传输的开始标志。
(3)前置码 Z:表示由 192 个帧组成的音频块中的第一帧传输的开始标志,每个块有且只出现一次。
前置码的作用是识别和同步音频块、音频帧和子帧的。AES 音频是采用双相位标志编码的,而前置码则采用不同于双相位标志编码的特殊编码方式以消除出现类似前置码数据的状态。这样一来消除了相似数据代替前置码而引发数据错误打包等混乱情况。提高了数据传输的稳定性和安全性。
4-7 bit 四个时隙包含一些外加辅助信息,24bit 量化的编码时就会用到这四位。辅助信息可以包含多方面内容,比如一些质量要求不高的额外音频通话通道。如果不予以利用的话,只需直接置 0 即可。
8-27 bit 一共有 20 个时隙,从最低位 LSB 到最高位 MSB,这 20 位为纯音频数据,不含其它类型信息。
28-31 bit 为最后 4 个时隙,一个包含 4 个不同的状态位。
用户数据比特位 U:它是一种预留辅助位,使用者可以根据自身的设计要求使用此位,最大优点是可以被随意占用而不影响音频传输。该位初始默认为 0,用户也可以将自己公司信息用 U 表现出来。
声道数据状态比特位C:AES 是可以传输单声道或者双声道音频的。就双声道而言,任意单个音频块中的子帧 1 和子帧 2 的声道状态是各不相同的。C 一般囊括的信息有:左右声道的数量,采样频率,时间编码,取样字的长度等。通常由 C 来表达通道的一些状态信息
极性比特位 P:也被称作奇偶校验位,当音频传输中出现误码时,它会对除前置码以外所有数据进行校验,一般情况下设置成指示偶数极性,指示偶数 0或偶数 1 的位数。
有效数据比特位 V:它是一种判断指示标志位。系统判断接收的数字音频数据能不能转换为 PCM 编码的模拟音频信号。若是可以转化则该位置 1,反之置 0。置 0 时接收端将会自动将其屏蔽。
一个完整的子帧如下 所示。