卷 第 10 计 算 机 工 程第31期 № 10 Computer EngineeringVol.31
/热点技术· ·发展趋势
文章编号:1000—3428(2005)10—0004—03
文献标识码:A
2005年5月
May 2005
中图分类号:TN911.21
MPEG-4 AAC音频编码综述
谭建国,关红涛
(上海交通大学图像通信和信息处理研究所, 上海 200030)
摘 要:介绍了国际标准MPEG-4 AAC音频编码各模块的功能和作用,以及各模块所采用的算法;描述了心理听觉的原理以及心理听觉模型的建立;最后提出了音频编码器质量评价的方法。 关键词:AAC;音频编码;心理听觉模型
Summa of MPEG-4 AAC Audio Coding
TAN Jianguo, GUAN Hongtao
(Institute of Image Communication & Information Processing, Shanghai Jiaotong University, Shanghai 200030)
【Abstract】This paper introduces the functionality and application of all modules in MPEG-4 AAC audio coding, and the algorithmof eachmodules. It presents the psycho-acoustic principle and the creation of psycho-acoustic model, puts forward the appraisal quality of audio coding. 【Key words】AAC; Audio coding; Psycho-acoustic model
MPEG-4AAC音频标准不像
MPEG-1和MPEG-2音频编码标准,它不仅提供单个高效的压缩方案,而且提供了一套完整的工具来实现从低比特率到高比特率的音频编码和音乐合成。
AAC Gain Control Tool datacontrol
Window length decisionFilterbankSpectral Processing1 MPEG-4 AAC音频编码
MPEG-4 AAC[1,2]包括4种音TNS频对象类型:Main,AAC Psychoacoustic ModelLC(Advanced Audio Coding Low
Perceptual ModelLong Term PredictionComplexity),SSR(Scalable Sampling Rate)和LTP(Long Term
Bark scale to scalefactor Prediction)。前3类从MPEG-2 Intensity/Couplingband mappingCoded Audio StreamBitstream AAC中继承,LTP是MPEG-4独format有的。MPEG-4 AAC音频编码器
Prediction的结构如图1。Main类中不包含AAC Gain Control Tool模块,
PNSAAC LC不包含Predication和
AAC Gain Control Tool模块,SSR类在AAC LC类的基础上增加M/SAAC Gain Control Tool模块。
AACTwinVQFilterBank模块实现音频从
Scalefactor coding Spectural Normalizaion 时域到频域的转换,一般采用Quantizaion and Interleaved VQNoiseless codingMDCT(Modified Discrete Cosine
Transform)[3~5]算法,在SSR类中采用了混合滤波器组法。
图1 MPEG-4 GA音频编码器的结构 Window Length Decision模
块根据心理听觉模型中计算的感
知熵,判断所采用的块类型,长块采用2 048样点,短块采
作者简介:谭建国(1975—),男,博士生,主研方向:音视频编解码
用256样点,分别对音频信号加Kaiser-Bessel窗或sine窗,
技术研究;关红涛,工程师
前后块之间交迭50%来消除块与块之间解码时出现的块效
定稿日期:2004-03-31 E-mail:tjg@sjtu.edu.cn
应。 —4—
TNS(Temporal Noise Shaping)模块是可选模块,它用来对量化噪声进行整形,消除预回声现象。在音频编码过程中,当音频信号的频谱变化很快时,就会造成量化误差在整个块之中扩散,出现预回声现象,如图2所示。预回声的消除方法[6,7],对量化噪声进行整形,把长块切换成短块,利用人耳听觉的前向掩蔽效应消除。TNS模块中采用了线性预测编码,采用了Levinson-Durbin算法[8]进行线性预测计算。
Long Term Prediction模块是MPEG-4引入的新模块,也是一个可选模块,它是用来减少连续编码帧之间信号的冗余,这个模块对于信号有明显基音情况下特别有效,是一个前向自适应预测器。
1.0
0.8
0.6
0.4
0.2
0.0
-0.2 -0.4
-0.6
-0.8
200400600800100012001400160018002000
样本 (n)
(a) 原始的响板信号
幅度1.00.80.60.4
PNS(Perceptual Noise Substitution)模块是MPEG-4特有
的模块,是建立在一个噪声相似,噪声形状对于主观感知来说不重要,因此可在码流中指定某个频带是噪声,只需给出那个频带的功率信息代替传送确切的噪声谱信号,优化传送比特流的效率。
在SSR类中,在进行MDCT变换之前,音频时域信号经过一个四等宽度的多相正交滤波器和一个Gain Control module。增益控制削弱或放大每一个多相正交滤波器带来减少预回声效应。然后计算每个多相正交滤波器带的MDCT。
Quantization Coding模块包含AAC模块和TwinVQ模块。AAC模块处理的比特率范围为16~64kbps,Twin模块处理的比特率范围低于16kbps。
2人耳的感知听觉模型
2.1人耳的感知过程
人耳由外耳,中耳和内耳3部分构成,如图3所示。内耳中有耳蜗,如图4所示。耳蜗中有很多毛发细胞。一般情况下,声音信号通过外耳和中耳进入内耳,在内耳中检测和处理声音信号,外耳和中耳相当于时频转换和带通滤波器。噪声信号主要是由于外部噪声和内部血液流动产生的噪声。外耳和内耳对声音信号的处理和内部的噪声一起限制了内耳对于小的音频信号的检测,这就是人耳的听觉绝对掩蔽域值。在内耳的耳蜗处毛发细胞,这些毛发细胞用来感受声压;相当于把频域信号转换为时域信号;不同位置毛发细胞对不同的频率范围敏感,所以Zwicker、Greenwood和Feldkeller将不同的位置根据感受频率的敏感性分成了24个不交迭的带,称为临界带宽。另外,当一个信号单独存在时,能够被听到;但当另一个信号存在时,这个信号就听不到,这就是人耳听觉的掩蔽现象。
幅度0.20.0--0.-0.4-0.6-0.8-1.0
20
40
60
80100012001400160018002000
样本 (n)
(b) 重建的响板信号
图2 预回声现象(a)(b)重建的响板信号
Intensity/coupling 模块中采用了强度立体声编码的方法,利用单一的描述信号的强度和方向信息代替左右通道,来减少编码的比特率。它主要利用了人耳听觉系统的性能,当信号的频率高于2kHz时,人耳对于信号的相位不敏感。该方法用在低比特率编码,对于高比特率编码,采用M/S立体声模块。
M/S模块用于立体声音频编码中。它利用左右通道信号L和R通过M=(L+R)/2和S=(L-R)/2变换成中间和边信息,在解码过程中利用L=(M+S)/2和R=(M-S)/2来重建。由于左右通道之间的相关性,可以有效地降低码流的比特率。M/S模块比较常用的是Lame算法,但是由于Lame算法是基于感知熵的编码,在比特率有限不能获得透明质量的情况下不能反映比特率的要求,Chi-Min Liu,Wen-chieh Lee等人提出了基于分配熵[9]的M/S编码。 Prediction它减少静态信号的冗余,仅支持Main类中的长块。
外耳 中耳 内耳
图3 人耳的结构
图4耳蜗的结构
—5—
2.2人耳听觉掩蔽的模型
因为根据人耳听觉的生理学模型,外耳和中耳相当于时频转换和带通滤波器,所以首先音频信号需要从时域利用傅立叶变化转换到频域。耳部血液流动产生的噪声限制了人耳对小信号的检测能力,于是引入了听力的绝对域值;也是就当信号的声压级小于听力的绝对域值时,信号将无法被检测到。听力绝对域值[10,11]如图5所示。与式(1)近似。
2
T(f)=3.64(f/1000)−0.8−6.5e−0.6(f/1000−3.3)+10−3(f/1000)4
(dB SPL)
3.2 客观质量测试方法
客观质量测试方法有6个方案作为候选方案:DIX(Disturbance Index), NMR(Noise-to-Mask Ratio), PAQM (Perceptual Audio Quality Measure), PERCEVAL (Perceptual Evaluation), POM(Perceptual Objective Measure), 和工具盒(Toolbox Measure)。
在ITU-R.BS 1387中对提供的6种方法进行研究,提取
中最有前景的工具后合成的一种方法,ITU-R.BS 1387方法SFdB(x)=150.81+7.5(x+0.474)−17.51+(x+0.474)2dB (2)
的基本原理如图8所示。 x表示有多少单位巴克,SFdB(x)用dB表示。
Audio quality estimate
掩蔽纯音
Reference signal掩蔽域值 Objective Signal under test Device under measure
test最小掩蔽域值 method
图8 客观评估的原理图
频率(Hz)
临界临近的带 如图8所示,测试模型有两个输入信号:其中一个参考带
信号(Reference signal),另一个是测试信号(Signal under test), 图6 同时发生的掩蔽扩展情况
两个信号的保持时间一致。将心理听觉模型加入评价方案中
有两种不同的方法:a 掩蔽域值法,它同音频编码的结构相进行临界带分析,考虑扩展域值后,在心理听觉编码器
似,利用参考信号计算出掩蔽域值,参考信号和测试信号的中的掩蔽域值的关系常常以dB方式建立的。
差同掩蔽域值比较;b 内部描述法,该方法更接近听觉系统THN=ET−14.5−B (3)
的生理学过程。 THT=EN−K (4)
(下转第86页) THN和THT分别是纯音掩蔽噪声和噪声掩蔽纯音的噪声 —6—
声压级(dB) (1)
所以利用听力域值去给编码的失真谱整形听觉不会感受到。
100
80
60
40
20
0
102103104
频率(Hz)
图5 听力的绝对听觉域值曲线
人耳的另一个特性是,当两个声音出现时,一个声音常常会掩蔽另外一个声音;原因是一个强的噪声或纯音掩子的存在会在临界带位置的耳基部薄膜处产生了足够强的激励,有效地阻止了弱信号的传输。这样的掩蔽包括频域掩蔽和时域掩蔽。频域掩蔽一般指的是一个临界带内的频域现象。为了分别给编码噪声整形,通常将频域掩蔽分为两种类型:纯音掩蔽噪声和噪声掩蔽纯音。对于第1种情况,如果噪声谱位于同掩蔽纯音直接相关的预测域值之下,出现在临界带中心的声音将掩蔽临界带之内的任何形状的噪声。第2种情况同第一种情况相同,只是掩蔽的对象发生了变化。一个临界带内中心的掩子对别的临界带中的掩蔽域值也有影响,这种现象称为掩蔽的扩展。临界带之间掩蔽扩展情况可以用每巴克(1巴克值为一个临界带)25dB和-10dB的三角扩展函数来建模。域值扩展见式(2),频域掩蔽示意图如图6所示。
声压级 (dB) 和纯音的掩蔽域值。EN和ET分别是临界带噪声和纯音掩子
能量级,B是临界带数,一般K在3和5之间取值。掩蔽域值曲线指的是以巴克值为单位刚好感觉到失真的函数。进行心理听觉编码首先将掩蔽的信号分为噪声或者纯音,其次合理地计算掩蔽域值(通常绝对掩蔽域值和刚好感觉到失真的掩蔽域值的最大值作为最终的掩蔽域值),然后利用掩蔽域值给刚好感知失真以下的噪声去整形。
同时掩蔽后向掩蔽 60前向掩蔽
40
20
掩子
-50050100150050100150200
图7 人耳前后向掩蔽示意图
时域掩蔽出现在时间域,在音频信号分析情况下,突发信号时域掩蔽在时间上产生了前向掩蔽和后向掩蔽的区域。前向掩蔽和后向掩蔽示意图如图7所示。由图可见,被掩蔽声音的绝对听觉域值在掩蔽信号出现前后被人为的提高了。前掩蔽往往仅持续5~20ms,后掩蔽将根据掩子的强度和持续的时间延迟50~200ms。
3 MPEG-4 AAC音频编码器的测试
3.1 主观质量测试方法
主观测试方法有ITU-R法和ITU-T法;ITU-R[12,13]法根据3个一组激励(triple-stimulus),隐藏参考音频(hidden-reference)和双盲测(double blind test method)进行评估,通过编码信号和原始信号的直接对比来准确的检测出编码信号是否透明;通过‘5’分制的打分,来评估质量的好坏。‘5’表示音频质量透明,‘1’表示音频质量最差。ITU-T[14]
法主要用于低比特率音频评估。对于MPEG-4 AAC高质量音频编码,一般采用ITU-R法。
掩蔽域值(dB) varn⊂varf;
(4) T为合法继承的判定: True vars⊂varf∨vars=Φ T = False 其它;
(5) R(x)为R中用户集合x与授权组别的依赖关系的重定义
R( x)= R(x) 否则。 2.3 权限控制的动作模式 权限控制的实现是依托于DFL层,DFL层对应用服务程序的SQL请求语句进行合法性判别,并且对从数据库流向应用服务程序的数据进行过滤,屏蔽掉与数据访问权限授予不相符的数据。权限控制的运作模式如图3所示。 发经过过滤的数据给Web Application; (6) Web Application响应Client的服务请求(Reply)。 3 权限控制系统的性能 本文提出的利用Java技术设计的权限控制系统,主要有以下优势: (1) 权限控制表与数据视图映射表由程序自动生成,设计人员在开发过程中无须考虑权限设定问题,节约了用于这个部分的需求分析时间。 (2) Web的应用服务与权限管理完全独立,整个系统结构更加清晰,且增强了系统的扩展性。 (3) 用户进行二次开发时,只要重新运行程序,让系统自动添加映射即可把新的数据视图纳入管理,无须进行权限控制管理的程序代码编写。 (4) 权限设定简单,系统管理员可根据需要调节用户权限控制,满足各种需求。 (5) 字段级的权限控制,可以安全有效地实现全方位权限控制。 4 结束语 本文所述的权限控制管理系统设计的关键是数 据库授权模式在Java上的虚拟实现。这使应用服务程序对于权限控制相对独立,并且两者之间的关系清新,架构明了,从而提高了开发系统的编码效率,缩短开发周期,更大大地减轻了后继二次开发与后期维护的代价,节约了系统开发与维护的成本。在高级人才数据库管理系统的开发实践中,该设计取得了良好的使用效果,解决了传统设计不可避免的问题。 参考文献 1 Alur D, Crupi J, Malks D. Core J2EE Patterns:Best Practices and Design Strategies. Pearson Education Inc., 2001 2 Booth G, Rumbaugh J, Jacobson I. The Unified Modeling Language User Guide. Addison Wesley Longman Inc., 1999 3 Flanagan D. Java in a Nutsbell(Third Edition). O’Reilly & Associate Inc., 1999 4 Stevens W R. 施振川, 周为民, 孙宏辉等译. UNIX网络编程(第1卷). 北京:清华大学出版社, 1999 5刘 湛. J2EE全面简介. http:// www-900.ibm.com/developerWorks/ cn/java/j2ee/index.shtml 6 萨师煊, 王 珊. 数据库系统概论(第3版). 北京:高等教育出版 :client :Web Application :DFL :Data Base Request SQL Execute (SQL,Group ID) When Check(SQLGroup ID)=False False When Check(SQLGroup ID)=True SQLExecute(SQL) DataReply Reply DataFilter 图3 权限控制的UML运作模式描述图 (1) Client向Web Application 提出一个应用服务请求(Request); (2) Web Application根据应用服务,向DFL层发送SQL语句和Client的组别(Group ID); (3) DFL层根据Group ID判定SQL语句对视图的访问要求是否符合该组别的规则。若该Group ID没有访问该视图的权限(Check(SQL,Group ID)=False),则SQL请求不被允许,向Web Application返回一个信号(False);若该Group ID具有访问该视图的权限(Check(SQL,Group ID)=True),则向Data Base转发SQL请求; (4) Data Base响应DFL层的请示,并向DFL层返回相应的数据; (5) DFL层根据Group ID所属组别的权限,将Data Base返回数 社, 2002据中与Group ID所具有的数据访问权限不相符的数据屏蔽掉,并转 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 5 Britanak V. The Fast DCT-IV/DST-IV Computation via the MDCT. (上接第6页) 4 结论 本文中对MPEG-4 AAC音频编码器的结构及各个模块 的功能和算法进行了详细的介绍;从生理学的角度分析了人耳感受声音的过程,以及存在的对声音的掩盖现象;介绍的人耳听觉数学模型;最后介绍了MPEG-4 AAC音频编码器进行质量评估的主观和客观方法。 参考文献 1 ISO/IEC JTC1/SC29. International Standard ISO/IEC 14496-3.Coding of Audio-visual Objects: Audio. 2 Brandenburg K , Kunz O , Sugiyama A. MPEG-4 Natural Audio Coding. Signal Processing: Image Communication, 2000 ,(15): 423-444 3 Wang Ye , Yaroslavsky L. Some Peculiar Properties of the MDCT. Proceeding of ICSP,2000 4 Britanak V,Rao K R. A New Fast Algorithm for the Unified Forward and Inverse MDCT/MDST Computation. Signal Processing,2002, (82): 433-459 Signal Processing, 2003, (83): 1803-1813 6 Noll P. MPEG Digital Audio Coding. IEEE Signal Processing Magazine, 1997-09 7 Herre J. Temporal Noise Shaping,Qualization and Coding Methods in Perceptual Audio Coding:A Tutorial Introduction, AES 17th Internat- ional Conference on High Quality Audio Coding .http://ccrma- www.stanford.edu/~jos/lattice/Levinson_Durbin_algorithm.html 8 Liu Chimin, Lee Wenchieh . M/S Coding Based on Allocation Entropy. Proc. of the 6th Int. Conference on Digital Audio Effects(DAFX-03),London,UK,2003-09 9 TU-R. Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound System,1197,Rec.ITU-R BS.1116-1 10 Contin L,Edler B. Tests on MPEG-4 Audio Codec Proposals. Signal Processing:Image Communication, 1997, (9): 327-342 11 ITU-T. Methods for Subjective Determination of Transmission Quality. ITU-T Recommendation,1993:81 —86— 因篇幅问题不能全部显示,请点此查看更多更全内容