您现在的位置：首页 > 汽车用品 > 正文内容

浅谈汽车音响MPEG和H.264的一些常识问题

所属分类：汽车音响 2013-11-3 22:28:07 推荐指数：

MPEG是moving picture experts group或moving picture image coding experts group的英文词头缩写。按第一种写法译出为活动图像专家组，第二种则为活动画面图像编码专家组，工作内容更加清楚。这是国际标准化组织ISO（international standardization organization）和国际电工协会IEC（international electrotechnical commission）的第29分委员会的第11工作组，专门从事活动图像及其伴音的编码标准制定，成立于1988年。但一般人听到MPEG这几个字时，想到的并不是这个组织，而是这个组织制订的一系列数字化图像标准。

该组织制定的第一个标准是MPEG-1，但由此标准推出的一些产品，除VCD之外，大多没太成气候，原因恐怕是这种压编格式处理的视频图像的清晰度还不及现行模拟电视制式和民用磁带录像系统。但其第三层面的音视压缩技术MP3，却在网络音乐上开花结果了。 1990年开始制订第二个活动图像编码格式MPEG-2的标准，这时ISO/IEC已和国际电信标准化组织ITUT（international telecommunication union-telecommunication standardization sector）合作。随着1996年DVD的出世，音视爱好者对MPEG-2都已耳熟能详，将来的数字电视也将用这种标准压缩传送图像。

MPEG-4是从1993年开始标准化的，现在MPEG-4在网络视频的传输和运用方面十分热门。其实，无论是哪个MPEG标准都有很多繁杂的层面和等级，而人们称呼的只是最常用的那一种格式。总体的情况是越新推出的标准，压缩技术越好。换句话说，以同样的数据率，可放入更清晰的图像，或者同样清晰度，可以用较小的数据率，传送和存放更加方便。H.264就是新近出现的一种MPEG-4格式，现已被东芝和NEC的新一代光碟HD DVD-ROM采用。H.26x是MPEG组织下属的高压缩编码部门和对应提出的编码格式建议书的代号。

H.26L是设计节目时间较长的高压缩编码技术的部门，L为Long Term的缩写。对应的还有一个H.26S专门设计节目时间较短的高压缩编码技术部门。 H.26L标准化技术的名称为 H.263，即MPEG-4 Visual（视觉）简单层面的基础编码方式，也称MPEG-4 Part2。1998年开始又在H.26L的基础上进行H.264的标准化。H.264还有MPEG-4 AVC和MPEG-4 Part10这样两个名称。MPEG-4里还有MPEG-4 Audio（音频）和MPEG-4 System（系统）的标准。

由于用后缀来区分不同格式，会使一般人感到不方便。而且先出场的格式会给人先入为主的感觉，所以ITU-T对MPEG-4 AVC/MPEG-4 Part10格式推荐使用H.264的名称。而我们挂在嘴边的MPEG-4实际上是指MPEG-4 Visual/MPEG-4 Part2格式。各种MPEG格式压缩的主要流程是相同的，不同在于各自具体压缩的细节随着技术的发展而不断深入，性能则越来越高。H.264获得众多关注的理由之一是具备超高压缩率，其压缩率为MPEG-2的两倍以上，MPEG-4的1.5至两倍。美、日、欧洲等国家已着手准备把它作为便携式数字电视的编码方式，互联网及手机的视频通讯编码格式和硬盘录像机及DVD录像机的长时间录像编码方式。加上预期专利许可费较低的因素，H.264有可能成为HDTV时代的又一个“MPEG-2”。

MPEG编码的基本原理如下。首先把连续的视频图像分成每秒25/30帧的静止画面，按格式要求取样量化成数字化图像。若数字图像为D1格式，一个画面就分成720×480个点构成。接着就进行三个方面的压缩编码。 okok

一、对图像块进行运动预测，消除时间上的冗余量

把每幅图像分成若干块，在MPEG-1和MPEG-2阶段只分成16×16一种图像块，VCD的352×288点阵就有22×18=396块，DVD的 720×480就是45×30=1350块。利用图像前后帧之间时间上的因果关系进行压缩数据，即把后一帧图像上的这一块与前一帧图像上的同一块作比较，把两者的差值，也称预测误差记录下来，而没有差别的地方就是0。例如，视频节目中有一秒钟定格，那么这25或30帧图像只要存入第一幅的数据，后面 24/29帧图像的记录全是0。如果图像是静止风景前飞过一只小鸟，那么也就小鸟所在的图像块上有预测误差，其余地方也全是0。存储信息大大减少。

二、用离散余弦变换DCT，压缩空间上的冗余量

MPEG-1和MPEG-2进行离散余弦变换DCT（Discrete Cosine Transform）时，把整个图像分解成若干个8×8像素点阵块。原始的像素块数据是图像在该点的亮度或色度的强弱，DCT变换后，这8×8数据反映了这一小图像块上的频率分布。64个小方格中，左上角第一格放入图像的直流分量，向右是水平方向上不同频率的强度，最右的一格是水平方向上最高频率的强度。向下是画面垂直方面上不同频率的强度，愈向下，频率越高。所以，右下角这格中的数就表示整个图像中，水平方向和垂直方向频率都最高的成分。

大家都知道，所谓一画面的直流分量就是画面亮度/色度的平均值，而高频分量则是图像的变化，变化越快，频率越高。若8×8的小块落在云彩、人物衣着或皮肤的中间，其64个点基本上无差别，那就只有直流分量，即左上角这块内的数据有具体值，其它63块的数据全为0。若这小块内的亮度/色度变化不大，则只有左上角几块数据有具体值，其它的又全为0。只有出现64块极明显的突变，如全白底上一点黑，或全黑底上一点白这样的情况时，64点才都有数据值。这样的图像在视频节目中是绝对没有的。经过DCT，原来每点都有具体值的数据矩阵就变换成绝大部份是0、仅少量有不同值的数据矩阵，压缩掉了空间上的冗余量。

三、用可变长度编码，压缩存储时的冗余量

接着对每个DCT块用“之”字形方式取数，这样做能把数值为0的那些数据尽可能地集中一起。可变长度编码简单地说就是有数值的地方按精度要求存入，一般占用8bit。0的地方就记成连续几个0，并不让每个0都占去8个比特。从而在存储时压缩了冗余量。 MPEG-2，MPEG-4和H.264的具体压缩技术的细节不同，见表1。

表1、三种压缩编码的不同技术、三种压缩编码的不同技术

主要技术	H.264	MPEG-2	MPEG-4
帧内预测	有4×4象素块9种，16×16象素块4种预测模式	无	无
帧间预测	分16×16象素块7种模式，SDTV图像最大预测5帧(预测1/4象素)	以16×16象素块为单位从前面帧预测(预测1/2象素)	以16×16和8×8象素块为单位从前面帧预测(预测1/4象素)
DCT变换	4×4象素单位的整数变换	8×8象素单位的离散余弦变换

MPEG的运动预测编码采用三种不同画面进行。1、帧内编码I画面，它以原始数据直接编码，不采用基准画面预测。其编码量信息量大，但可以独立还原画面，中止错误的画面继续下去。2、前向预测编码P画面，用最近的I或P画面为基准进行运动预测得到的新画面。其编码效率较高，但若基准画面有错，那么这个画面上的错误会被传下去。3、双向预测编码B画面，同时用前面和后面的画面作为基准进行运动预测。编码压缩率最大，且不会传递错误，但需要附加存储器，时间有迟后，还不能作为预测基准。

H.264引入了新的帧内预测技术，它以特定大小的块作为单位，从周围像素中预测并编码I画面。其帧间运动预测的模式多达7种，以能选定最合适的模式进行预测，因而运动矢量的精度较高。另外，预测可以利用的参考帧帧数也增加了，根据画面清晰度的不同能用4到6个校正帧，因而能搜索出突然消失那样的大动作画面。故而H.264的压缩率最大。

但H.264的改进是以运算量上升换取的，若以MPEG-2的解码处理量为1的话，H.264的解码处理量为1.5，这对用户端关系不大。但从编码端看，若MPEG-2编码处理量为1的话，用原来的程式，H.264需要15倍的计算量。不过，现在CPU的主频和内存都比MPEG-2刚上台时的相应参数高了几十倍，并不会成为普及的障碍，但处理量的降低仍是研究的课题。所以，H.264在DCT变换中，发展出了整数变换，避免了小数和余弦值的浮点运算来降低运算量。并以4×4像素块为一个单位进行变换，比原来的8×8像素块更细，令块噪声不明显。

[1][2][3][4]