MPEG-2 AAC音频解码算法分析及
模块的硬件实现
姓名:黄征
申请学位级别:硕士
专业:电路与系统 指导老师:郭立 教授
摘要 ................................................................................................................................................ 1 ABSTRACT ................................................................................................................................... 3 第一章 绪论................................................................................................................................... 5
1.1 数字声音信号 ............................................................................................................ 5
1.2 数字音频压缩的基本理论依据 ............................................................................. 6 1.3 音频编码技术的发展现状 ....................................................................................... 9 1.4 论文的主要工作及组织结构 .............................................................................. 13 1.5 本章小结 .................................................................................................................. 13
第二章 MPEG-2 AAC算法模块分析 ..................................................................................... 14
2.1 引言 ........................................................................................................................... 14
2.2 MPEG-2 AAC的配置 ............................................................................................ 14 2.3 MPEG-2 AAC的解码模块 ................................................................................... 15 2.4 本章小结 .................................................................................................................. 21
第三章 MPEG-2 AAC在定点DSP上的解码 ....................................................................... 23
3.1 引言 ........................................................................................................................... 23
3.2 MPEG-2 AAC文件格式 ....................................................................................... 23 3.3 DSP系统的开发流程 ............................................................................................ 26
3.3.1 TMS320C54X系列DSP特点 ................................................................. 28 3.3.2 软件开发环境 .............................................................................................. 29 3.3.3 硬件开发环境 .............................................................................................. 30 3.4 MPEG-2 AAC算法定点化 ................................................................................... 31
3.4.1 数的定标 ....................................................................................................... 32 3.4.2 线性运算的实现 ......................................................................................... 34 3.4.3 非线性运算的实现 ..................................................................................... 35 3.5 MPEG-2 AAC解码优化技术 .............................................................................. 35
3.5.1 使用优化器进行优化 ................................................................................ 35 3.5.2 算法优化技术 .............................................................................................. 36 3.6 在定点DSP上的解码结果分析 ........................................................................ 43
3.6.1 速度与内存测试 ......................................................................................... 43 3.6.2 解码波形图 .................................................................................................. 44 3.7 本章小结 .................................................................................................................. 45
第四章 FPGA开发MPEG-2 AAC解码器 ............................................................................ 46
4.1 引言 ........................................................................................................................... 46
4.2 FPGA的主要特点 .................................................................................................. 46 4.3 软件开发环境Quartus II ...................................................................................... 48 4.4 算法模块的硬件结构 ............................................................................................ 49
4.4.1 Huffman模块硬件实现 .............................................................................. 49 4.4.2 反量化模块硬件实现 ................................................................................ 51 4.4.3 IMDCT模块硬件实现 ............................................................................... 52 4.5 本章小结 .................................................................................................................. 54
第五章 总结与展望................................................................................................................... 55 参考文献..................................................................................................................................... 58 攻读学位期间发表的学术论文 ................................................................................................. 61 致谢 ............................................................................................................................................ 62
中国科学技术大学硕士学位论文
摘要
本文研究了MPEG-2 AAC(Advanced Audio Coding)解码器在定点DSP(Digital Signal Processor)上的实现以及在Field Programmable Gate Array(FPGA)上的部分实现。
作为新一代最有效的高保真数字音频编码手段,MPEG-2 AAC具有压缩比高,重建音频质量好,编解码过程模块化,声道配置灵活等特点,并且不同的层次具有不同的算法复杂度,因而MPEG-2 AAC在数字声音存储、Internet上的多媒体传输、数字音频广播(DAB)等领域正获得日益广泛的应用。随着数字多媒体技术在我国的飞速发展,对研究和实现MPEG-2 AAC硬件解码系统具有重要意义。由于MPEG-2 AAC解码算法的复杂性,要实时实现其硬件解码器有一定的难度,目前国外已经有研究机构利用数字信号处理器(DSP)开发出AAC音频解码器,而国内关于此方面的研究却刚刚起步。
本文的主要工作:
本文首先研究了声音信号的压缩原理及发展现状;然后研究了MPEG-2 AAC音频编码标准及其中引入的一些新技术;在此基础上,本文对AAC标准建议的解码算法在不降低解码器质量的前提下进行了运算复杂度方面的优化,其中的一些主要改进有:1)对于Huffman解码采用比较算法而非传统的二叉树遍历搜索算法;2)用带线性插值函数的反量化表代替全局反量化表;3)对IMDCT模块采用了基于IIR滤波器结构的构架进行运算,该方法特别适合于并行运算。这些优化方法大大减低了AAC解码算法的运算复杂度,为实时实现其解码器创造了很好的条件;接着,本文利用TI公司提供的DSP开发板实时实现了AAC主框架音频解码器,证明其算法优化在节省存储空间和提高运算速度上是卓有成效的;最后,本文研究了MPEG-2 AAC 解码器的VLSI实现,给出了Huffman解码模块,反量化模块以及IMDCT模块在FPGA上实现的硬件结构框图,并用VHDL语言编写了代码,给出了仿真波形,为最终实现单片AAC解码芯片打下了基础。
本文的主要特色:
1)由于MPEG-2 AAC解码算法的复杂性以及DSP的有限寻址能力,如果要实时实现解码算法,必须在不影响音质的条件下改进程序结构,简化模块的
- 1 -
中国科学技术大学硕士学位论文
运算。为此,本文以AAC标准中建议的解码算法为依托,针对AAC解码器中运算量大,耗费存储空间多的模块进行了算法优化,这些优化措施有效的提高了运算速度,节省了存储空间,从而最终在DSP芯片上实时实现了AAC主框架解码器,具有一定的实用价值;2)作为下一代的音频编码标准,到目前为止,国内外还没有专用的AAC解码芯片,为此,本文研究了AAC解码器的VLSI实现,根据AAC解码流程具有按模块划分的特点,本文研究了Huffman解码模块,反量化模块以及IMDCT模块的硬件结构,这些模块的实现均采用了优化后的算法结构,用VHDL语言进行硬件描述,给出了仿真波形,最终可以将这些模块进行系统集成,从而实现单片AAC解码芯片。
关键词:MPEG-2 AAC DSP Huffman解码 反量化 IMDCT FPGA
- 2 -
中国科学技术大学硕士学位论文
ABSTRACT
This thesis presents the MPEG-2 AAC decoding algorithm realization on a fixed-point DSP (Digital Signal Processor) and partial implementation of it on a Field Programmable Gate Array (FPGA).
As a new and highly-efficient Hi-Fi audio coding method, MPEG-2 AAC has many features, such as high compression rate, excellent quality of reconstructed audio, module structure of encoding and decoding procedure and flexible channel configuration as well as different algorithm complexity for different profiles. Therefore, it is gaining wider and wider applications on digital sound storage, multimedia data transmission and digital audio broadcasting. With the development of multimedia technology in our country, it is significant to study and design real time MPEG-2 AAC codec system.
The main works of this thesis:
The thesis first introduced the compression principle of sound signal and relevant high achievements; then, it presented the MPEG-2 AAC coding standard and some new technologies adopted by it; basing on these, the author did some works to decrease the computation complexities, including:1) using comparison algorithm to decode Huffman module; 2) using look up table with a directly linear interpolation to decode inverse quantization module; 3) using IIR filter structure to decode IMDCT module, the proposed regular structure was particularly suitable for parallel VLSI realization. All of these methods had greatly reduced the complexities of decoder and make the real time implementation possible; at last, the thesis present the realization of AAC decoder on TI TMS320VC5402DSK, the work demonstrated the high performance of the modified methods; also, the thesis showed the hardware architecture of Huffman decoding module、inverse quantization module and IMDCT module in order to realize the AAC decoder on a single chip.
The characteristics of this thesis:
1) Because of the decoding complexities of the MPEG-2 AAC and the addressing limitation of DSP, if we want to decode the AAC file in real-time, we
- 3 -
中国科学技术大学硕士学位论文
must modify the program architecture and simplify the computation of modules without losing the audio quality. So, in this thesis, the author optimized the modules, which cost too much computations and memories based on the AAC standard. These methods can greatly increase the computation speed and save the memory space. Finally, the author successfully decoded the AAC file on DSP in real-time; 2) As the second generation audio coding standard, there is no ASIC chip of MPEG-2 AAC decoder up to now. so, the thesis did some research works on how to realize the decoder on a single chip, it also showed the hardware architecture of some basic modules of the decoder, using VHDL to describe the behavior of these modules, the simulation results are also given. The modules can be integrated to a system to realize the AAC decoder on a chip.
Keywords: MPEG-2 AAC Huffman decoding inverse quantization IMDCT FPGA DSP
- 4 -
中国科学技术大学硕士学位论文
第一章 绪论
1.1 数字声音信号
随着计算机技术和通信技术的发展,人类开始追求真正意义上的多媒体信息的处理和交互。自然界中的各种信息,包括文字、声音和图像,都成为处理的对象。但是,这些媒体信息都是模拟的,只有对其数字化后才能由计算机平台进行各种处理和综合。而各种媒体数字化后的信息数据量十分庞大,对于存储器的容量,计算机实时处理以及网络通讯线路的传输带宽都提出了非常苛刻的要求。实践证明,如果对多媒体信息数据进行压缩,可以明显增大存储量或减少传送时间。
在人类的几种感觉器官中,听觉和视觉接受的外界信息最多,与之相适应,这两种器官接受的声音与图像成为了多媒体的主要媒体数据,也是信号处理领域重要的研究对象。在这里,本章主要研究声音信号的压缩和编解码。
根据所处理的声音信号特征的不同,可以将声音信号分为如下两类:
1.语音信号
目前常见的话音通信系统,如长途通信、移动通信和卫星通信,主要面向这种信号,其信号频带限于0.3~3.4kHz,数字化时采样频率多取8kHz。在新兴的通信系统,如视频会议和ISDN话音服务中,音频信号的频带可加宽到50Hz~7kHz。
2.音频信号
一般认为人耳的听觉范围为20Hz~20kHz,这正是我们所需处理的音频信号 的频带。也就是说,如果我们能够完整的保留下该频带内的所有声音信息,就意味着不失真的保存了所需音频。在实际应用中,这种信号还可分为:
1)电视和无线广播质量音频:信号频带从40或50Hz到7kHz(调幅)或 15kHz(调频),广泛用于收音机和电视伴音。
2)CD质量音频:频带20Hz~20kHz,主要用于传输或存储高品质音乐信号, 数字化时采样频率可取44.1kHz或48kHz。
3)高质量Hi-Fi音频:和CD音频相比,频带更宽,量化更细。这种质量声音使听众具有现场感,即犹如置身于音乐厅中,而且多采用多声道混放输出,
- 5 -
中国科学技术大学硕士学位论文
形成环绕,并提供低音增强等功能。数字化时采样频率最高达96kHz。
最常用的数字声音存储方式是PCM(Pulse Code Modulation)技术。PCM简单的将模拟声音信号用固定的抽样频率与固定的最大量化比特数进行量化。PCM技术是1937年由A.H.Reeres最先发明的。PCM声音可以用各种量化比特数与采样率进行量化,但对最常见的CD质量的音频信号,一般都用44.1kHz与16比特进行量化。根据Nyquist准则,44.1kHz的采样率可以重建带宽小于22.05kHz的信号,比人耳通常能感知的频带略宽,多余的一点带宽可以用来修正滤波器的一些失真。使用n比特进行量化就有2n个量化阶。量化可以用等步长量化,也可以采用变步长量化技术。在等步长量化的情况下,每个量化比特将量化信噪比(SNR)增加6dB,16个量化比特使量化信噪比增加至96 dB。变步长的量化方案有很多,但它们都是基于对信号分布的概率密度和/或人耳对信号的听觉特性有所了解的前提。变步长的量化算法都比等步长量化要复杂。
数字音频作为一种存储、处理和传输Hi-Fi声音的方法在数字音频广播(DAB)、网络音频(Internet Audio)、多媒体通信等许多领域中得到广泛的应用。然而,要存储和传输原始音频数据需要很高的比特率。以CD为例,每声道比特率高达706kbps,一张650MB容量的光盘只能存储一小时的立体声,如果直接传输需占用一个T1或E1的12个话路,极不经济。在现有声道的传输能力限制下,为了能从广播、电视获得CD音质的音乐,并使存储介质的单位成本更小,人们想到了压缩码率,力求在保证声音质量的前提下使其占用的存储空间更小、传输速率更低,这就是音频压缩编码的产生原因。从上世纪80年代CD问世之日起,高效率的数字音频压缩编码的研究工作几乎同时开展。 1.2 数字音频压缩的基本理论依据
人耳的听觉系统是一个相当复杂的生理系统。首先,人耳的听觉有它自身的生理极限,它一般只能感知频率在20~20kHz的声音。在这个频段内的声音通过神经传输到大脑皮层,然后由大脑将声音转化成不同的感知信号。在这个过程中,有以下几点对于我们构造音频压缩算法尤其重要:
1.响度(Loudness)
两个幅度一样的声音,如果频率不同,它们会有不同的响度。产生这个现
- 6 -
中国科学技术大学硕士学位论文
象的原因是人耳对声音响度的感知会随着声音信号频率的变化而变化。实验证明,人耳对1000Hz~5000Hz的声音最为敏感。
2.动态范围(Dynamic Range)
人耳能感知的最低声压大约为20mPascal,将这个声压作为参考值,来衡量其他声音的强度。普通谈话的声强大约是50~60dB,而汽车发动机噪声的声强大约为130dB。人耳能忍受的最大声强为130dB,因此人听觉的动态范围为0~130dB。
3.听觉掩蔽效应(Auditor Masking)
掩蔽效应是一种常见的心理声学现象。它是指,在一个较强的声音附近,弱的声音将不被人耳所察觉,即被“掩蔽”掉。这时,较强的声音称为掩蔽声,弱的声音称为被掩蔽声。不可闻的被掩蔽声的最大声压级称为掩蔽门限。由于掩蔽声的存在,被掩蔽声(通常指单频声)的闻阈必须提高的分贝数称为掩蔽量(也称为掩蔽值、阈值)。掩蔽效应分为频域掩蔽(或同时掩蔽)和时域掩蔽(或异时掩蔽)两大类。
1)频域掩蔽:频域掩蔽现象发生在掩蔽声与被掩蔽声同时出现的时候,也 称为同掩蔽。举例来说,如果在1000Hz处有一个强音,而在1100Hz出有一个强度低了20dB的声音,1100Hz处的声音就会被1000Hz处的强音掩蔽,无法听到。由于掩蔽效应,幅度较大的音调(掩蔽音调)使靠近自己的相对幅度较小的音调变得听不见。一般来说,强音能掩蔽较弱的声音,而且两个声音的频率越接近,掩蔽效应越明显。
2)时域掩蔽:时域掩蔽现象发生在掩蔽声与被掩蔽声不同时出现的时候, 也称为异时掩蔽。被掩蔽声作用于掩蔽声之前,即一个声音影响了时间上先于它的声音的听觉能力,这称为前掩蔽。当掩蔽声作用在前,被掩蔽声作用在后,即当一个声音已经结束,它对另一个声音在听觉上还会产生影响,这称为后掩蔽。图1-1给出了频域和时域掩蔽效应的特性曲线。前掩蔽的作用范围大约是20ms,而后掩蔽的作用范围长达200ms。前掩蔽和听觉疲劳有些相似。在实践中,后掩蔽更为重要。当被掩蔽声在时间上越接近于掩蔽声,阈值就越高。掩蔽声和被掩蔽声时间上相距很近时,后掩蔽作用大于前掩蔽作用。
- 7 -
中国科学技术大学硕士学位论文
图1-1
4.临界频带
当细致地分析人耳是如何进行频谱分析时,临界频带的概念被引入了。研究发现,位频转换(frequency-to-place transform)发生在人的内耳。带有各自独立的神经感知系统的人耳的耳蜗不同位置对应了不同的临界频带。在实际应用中,临界频带可以大致定义为主观感知发生突变的频率带宽。一个纯音可以被以它为中心频率,而且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽,单位为Bark。
临界带宽有许多近似表示,一般在低于500Hz的频带内,临界带宽约为
100Hz,在高于500Hz时,临界带宽约为中心频率的20%。临界频带的位置不固定,以任何频率为中心,都有一个临界频带。连续的临界频带序号记为临界频率带,它与耳蜗中本底膜的长度呈线性关系,而与声音频率呈近似对数关系。在实际的音频编解码系统中,常常采用离散的带通滤波器来模拟临界频带。
5.人耳的声像定位特性
经过研究,普遍认为人耳对声音的定位机理,是由于听者自己的头部和躯干对入射声波的衍射作用,以致声波到达双耳时形成了声级差△P和时间差△T,他们都是声源的方位和频率的函数表示。研究表明,在中低频(f小于1500Hz),双耳△T是定位的主要因素;中频时(f为1500Hz到4kHz),△T和△P共同起作用;而高频时(f约大于4kHz),则△P是主要因素。高频时方位的决定取决于信号包络在内耳延时以及人耳所能感受到的信号频率。包络变化很快的时域声音信号,在定位时作用大,而包络比较平稳的声音信号,对于人
- 8 -
中国科学技术大学硕士学位论文
耳的定位影响很小。
目前的音频压缩编码算法主要分为两类:波形编码和感知编码。波形编码以声音波形为基础,使重建声音波形尽可能接近原始波形,这类信号压缩编码器的设计可以认为与信源无关。感知编码并不要求重建声音波形与原始波形完全一样,而是要保证对于人耳来讲,重建声音听起来与原始声音一样。感知编码算法利用对人听觉心理的先验知识,丢弃了原始声音中人耳无法感知的部分。通常,感知编码算法将时域信号转换成频域信号,再将频域信号分裂到各个子带上,然后利用人耳感知特性除去人耳听不到的部分。相比波形编码,感知编码能获得更高的压缩比。
现在绝大多数的高质量音频压缩编解码算法都是基于感知编码的。同时,它们又利用了信息论中的熵编码原理,极大的消除了原始信息中的统计冗余,获得了较高的压缩比和较好的重建音质。 1.3 音频编码技术的发展现状
自从PC支持多媒体以来,有几种音频编码标准得到了广泛的应用,下面对这些标准做一些简单介绍。
1.MPEG-1音频编码标准
自从1988年以来,MPEG小组承担了视频和音频压缩技术的标准化工作。这个小组制定的音频编码标准是数字音频压缩领域中的第一个国际标准。1989年,MPEG小组在征求了14种音频编码方案后,最后确定了2种:一种是MUSICAM(Masking Pattern Adapted Universal Sub band Integrated Coding And Multiplexing,自适应掩蔽模式通用子带综合编码与多路复用),另一种是ASPEC(Adaptive Spectral Perceptual Entropy Coding,自适应频谱感知熵编码)。基于这两种算法于1992年制定了MPEG-1标准。MPEG-l按照算法的复杂度和压缩比分为I、II、III三个层次。第I层的复杂度最低,是MUSICAM方案的简化形式,以每声道192kbps的速率提供高质量的声音,在不强调低码率的情况下应用。第II层具有中等复杂度,它使用比第I层更为精密的量化,与MUSICAM方案几乎完全相同,可在128kbps的码率下提供近乎CD质量的声音。第III层结合了 MUSICAM和 ASPEC的优点,复杂度最高,编码效果也最好,可在低
- 9 -
中国科学技术大学硕士学位论文
于每声道128kbps的码率下获得极高品质的音频。第III层使用了心理学模型II、可切换的混合滤波器组、比特池缓冲技术、先进的预回声控制、非均匀量化和熵编码技术。
MPEG-1等级III在商业上获得了巨大的成功,这就是我们熟悉的MP3。MP3是目前流传最广的一种音乐压缩格式,其CD般的音质、高压缩比、开放性和易使用性使之深受好评,尤其在Internet网络上广为流行,很多硬件厂商还推出了播放MP3的硬件设备。
2.MPEG-2 BC和MPEG-2 LSF
针对MPEG-1只能进行单声道或双声道编码的局限性,1994年11月MPEG小组制定了多声道扩展的音频编码标准MPEG-2 BC,它能够与已有的MPEG-1系统向下兼容。与此同时,MPEG小组还制定了一个在较低采样频率(6kHZ,22.5kHZ, 24kHZ)时效率高于MPEG-2的音频编码标准MPEG-2 LSF。 1994年11月,MPEG完成了MPEG-2 BC和 MPEG-2 LSF的制定。对五个全带宽声道,MPEG-2 BC在数据率为 640~896kbps的情况下提供了高品质的音频。MPEG-2 BC定义了MPEG-1的多声道扩展,传统的双声道声音格式的替代者是3/2+l多通道系统。 MPEG-2 BC采用MPEG-1编码器,也有三个层次的多通道扩展。层次III是最灵活的系统,作为一个主要的特点,MPEG-2 BC层次III允许使用数目灵活的扩展通道。MPEG-2 BC除了后向兼容多声道编码之外,还提供了对多个附加声道传输的支持。利用这些附加声道可以支持多语言编码。在MPEG-2 LSF背后的基本思想是,提高具有较高频率分辨率的滤波器组的编码增益。LSF的另一个优点是提高了主要信息对附带信息之比。对于那些需要根低码率的音频应用场合,LSF层次III成为优选方案。
3.Dolby AC-3
美国杜比(Dolby)实验室从1980年开始对数字声频技术进行研究,重点是降低比特率技术。它先后研制了 AC-l(Audio Coding-l)、AC-2和 AC-3技术。目前AC-3在多种音频处理系统中得到广泛的应用,美国现在己经把杜比AC-3标准作为高清晰度电视(HDTV)和数字有线电视的音频编码格式。
AC-3是一种高效率编码标准,它采用自适应变换编码,具有很多优点。它更好地模拟了人耳的听觉特性。AC-3滤波器组的频率选择性非常接近人耳的掩
- 10 -
中国科学技术大学硕士学位论文
蔽效应。时频变换采用了基于时域混叠抵消(TDAC)的MDCT。AC-3也采用了窗处理,输入时间信号在变换到频域之前先对其进行加窗处理,而且窗口长度是可变的。由子音频信号的时变特性,为了同时满足时间分辨率和频率分辨率的要求,在编码中采用了自适应分块技术以便有效地控制预回声的发生。AC-3编码器还采用了耦合技术和组合技术。耦合技术利用人耳对高频信号不能分辨出两个频率非常接近的信号的方向的特性,在编码器中将多个声道信号的高频部分耦合到一个公共声道中。当信道传输码率很低,单独对各个声道进行处理仍然达不到信道要求的码率时,就采用耦合技术。
编码依据不同的声道用不同的比特数表示数据。根据传输码率和频率分辨率的要求采用三种模式进行编码,三种模式的分辨率不同。
AC-3技术包含着灵活性,它可以重现一到五个声道的各种播放配置,再加上一个任选的低频增强声道,AC-3方案可使用32kbps到640kbps之间的可调整数据率,可配置成通道安排的各种组合。AC-3数据格式用于在已经采用了高度误码校正的环境中应用。
4.DTS
DTS,数字影院系统,Digital Theater System的缩写,是在杜比数字环绕声出现后的又一种数字环绕声系统。目前美国使用DTS作为其电影原声带数字音频编码方式的电影公司,已经超过了采用杜比数字系统的电影公司。
DTS之所以受到如此青睐,是由于其对高采样率、高量化精度的数字信号采用了灵活、先进的相干声学( Coherent Acoustics)编码技术。其最初的目标是要使音乐重放达到试听室的水平,即“音质高于CD”,而多声道格式是要使得家庭影院的声音重放质量在保真度及声像准确度方面得到全面的提高:第二个主要目标是其压缩算法应是广泛适用而且灵活的。多媒体应用限制了数据带宽,因此需要工作在384kbps或更低的5.1声道模式。而专业音乐应用要有更高的采样频率、更长的量化数及多路分立音频通道,并且更需要无损压缩,DTS相干声学包括了所有这些特性;最后一个重要的目标就是确保所有的解码器算法相对简单而且向前兼容。
DTS相干声学本质上是一种感知优化差分子带编码。其编码过程的关键组成是自适应预测编码,或称ADPCM,它可以有选择地独立工作在每一音频通
- 11 -
中国科学技术大学硕士学位论文
道的所有32个子带上。通过结合差分编码和同步噪声掩蔽阈值,可以提高比特率很低时的编码效率,从而降低了达到主观透明度要求的比特率。对音频多路通道的编码是在固定比特率或可变比特率上用分配比特的方法进行的。一个多相滤波器组把每一个独立声道的PCM源信号分为32个带宽相等的子带,并利用高理论编码增益及较强的止带衰减功能,使其具有较低的计算复杂性。对每一于带进行差分编码,可以去除音频中大部分客观冗余信号。同时,对未编码的信号进行声学同步处理和瞬态分析以感知相关信息,从而修正每一子带信号的主要差分编码循环。在多声道格式中,比特分配作用于所有编码通道,并随时间、频率及声道而改变以优化音频质量。
根据实际应用,DTS具有单声道、双声道至8声道可供选用,分离式的5.1声道可以混音成为“矩阵式两声道”。DTS每声道的采样频率最低为8kHZ,最高为192kHZ;量化精度范围为16~24bit;压缩率范围为1:l~40:l;总数据率范围为32~4056kbps。另外相干声学算法还可以实现高达138dB的动态范围。
DTS作为一种新型的数字环绕声技术,不但能胜任AV的重托,更能提高CD音乐的音质,完全可以和杜比数字制式在家庭视听方面想抗衡。
5.MPEG-4音频编码标准
MPEG目前正在发展最新的MPEG-4标准,目标是提供未来的交互式多媒体应用。MPEG-4将制定出与以往不同的、具有高度灵活性和可扩展性的新一代国际标准。较之以前的音频编码标准,MPEG-4增加了许多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性(scalability)、音调(pitch)变化、可编辑性及延迟等新功能。MPEG-4将以前发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次融合在一起,在诸多领域内给予了高度的灵活性。MPEG-4的重要特点就是高度的灵活性和可扩展性。
MPEG-4关于音频信号编码集中在:传统的音频编码即所谓的“自然音频”和新颖的“结构音频”以及“合成/自然混合编码”。自然音频编码将码率规定为每声道2kbps至64kbps,相应地定义了三种编码工具:参数编码、线性预测编码和时间/频率编码。当每声道64kbps时,就是MPEG-2 AAC编码标准。因此AAC方案己经成为MPEG-4音频编码的核心。
目前,MPEG-4正在制定发展之中,作为一种目标定位于未来的、全能的、
- 12 -
中国科学技术大学硕士学位论文
开放的多媒体方案,将伴随着未来不断出现的新技术、新思路、新方法,得到更深、更广的发展,成为领导未来多媒体世界的国际标准。 1.4 论文的主要工作及组织结构
本文的主要工作是对MPEG-2 AAC音频编码标准的各个模块进行算法研究,优化解码算法,实时实现其硬件解码器,为最终实现专用的MPEG-2 AAC解码芯片打下基础。
全文共分五章:第一章是绪论,简要阐述了音频编码技术的概况,研究了除MPEG-2 AAC以外其他几种当前主要的音频编码标准;第二章研究了MPEG-2 AAC音频编码标准,对其中的算法模块进行研究分析;第三章分析了AAC编码的音频文件格式,在浮点算法的基础上,实现了MPEG-2 AAC在TI 定点DSP上的解码;第四章详细研究了MPEG-2 AAC解码器关键模块的硬件结构,研究了其在FPGA上的实现,为解码器的ASIC实现打下了基础;第五章对当前工作进行了总结,对未来工作进行了展望。 1.5 本章小结
本章是全文的绪论部分,介绍了数字声音信号的表现方式和一些基本特征。由于多媒体技术的飞速发展,其数字化后信息量异常庞大,因此要对这些数据进行压缩。本章介绍了对声音信号压缩的理论依据,从而为实践打下了基础,同时也介绍了发展比较成熟的几种音频压缩标准。
- 13 -
中国科学技术大学硕士学位论文
第二章 MPEG-2 AAC算法模块分析
2.1 引言
关于高质量低码率数字音频编码标准的制定,具有代表性和开创性的工作多是由MPEG组织带来的。ISO和CCITT于1988年成立“运动图像专家组(MPEG)”,研究用于数字存储媒介中运动图像及其伴音的编码表示。
MPEG-2 AAC是MPEG在以Bosi、Brandenburg、Johnston等为首的音频编码研究组织于1997年提出的,它总结了MPEG-1、MPEG-2和AC-3等的长处,在MPEG系统上进一步改进并加入了很多新的功能,大大增强了编码的灵活度,在保证音质的同时更大限度地压缩了码率;同时,MPEG-2 AAC已经成为最新的MPEG-4标准中高质量音频编码的核心,是下一代音频压缩标准。 2.2 MPEG-2 AAC的配置
MPEG-2 AAC系统最多支持48条音频通道,常用的配置为单声道、双声道(立体声)和5.1声道(左中右三个主声道、左右环绕声道外加一个低频增强声道LFE),同时,在编码器中还可以灵活定义多种可编程的配置。
为了允许在音频质量、存储器和处理能力需求之间进行折中,MPEG-2 AAC系统提供了以下三层框架(Profile):
1.主框架(Main Profile):在这层框架中,AAC系统能对任何给定的数据 率提供质量最好的重建音频。除了增益控制模块以外,AAC系统包含了其他所有模块,使其对于存储器和CPU处理能力的要求是三种框架中最高的。同时,主框架AAC解码器能够对采用低复杂度框架的码流进行解码。
2.低复杂度框架(Low Complexity-LC Profile):在这层框架中,系统不包 括时域预测和增益控制(预处理)模块,并且TNS的阶数也受到限制。低复杂度框架在音频质量很高时,对存储器和CPU处理能力的要求比主框架小。
3.可分级采样频率框架(Scaleable Sampling Rate-SSR Profile):在这层框架中,增益控制模块是必需的,同时没有预测模块,并且TNS的阶数和信号带宽受限。该框架的复杂度比如前所述的两个框架都要低,而且它能产生一个频率可分级的信号。
- 14 -
因篇幅问题不能全部显示,请点此查看更多更全内容