5回答

0收藏

MPEG-2压缩编码技术原理应用(2)

消费电子 消费电子 4156 人阅读 | 5 人回复 | 2007-02-11

二、MPEG-2的编码

? ? 编码是MPEG-2标准的核心内容之一,其涉及到MPEG-2视频流层结构、MPEG-2帧间编码结构、MPEG-2的类与级、MPEG-2运动估值等技术。

1. MPEG-2视频流层结构

? ? 为了便利于误码处理、随机搜索及编辑,MPEG-2用句法定义了1个层次性结构,用于表示视频编码数据。MPEG-2具体的视频流层结构如图10所示:将MPEG-2视频流分为图像序列层(VSL-Video Sequence Layer)、图像组层 (GOPL-Group of Pictures Layer)、图像层(PL-Picture Layer)、宏块条层(SL-Slice Layer)、宏块层(ML-Macroblock Layer)、块层(BL-Block Layer)共6个部分,每层都有确定的功能与其对应
1) 图像序列层(VSL)

? ? VSL是由数据头及一系列图像组(GOP)组成的视频数据包,具体是指一整个要处理的连续图像。用于定义整个视频序列结构,可采用逐行或隔行两种扫描方式。其中,数据头给出了有关图像水平大小、垂直大小、宽高比、帧速率、码率、视频缓存校验器的大小、量化矩阵、层号(Layer-id)、分级法(Scalable mode)等,为解码提供了重要依据。

2) 图像组层(GOPL)

? ? GOPL是图像序列层中若干图像组的1组图像,由数据头和若干幅图像组成,用于支持解码过程中的随机存取功能。图像分组是从有利于随机存取及编辑出发的,不是MPEG-2结构组成的必要条件,可在分组与否之间灵活选择。其中,数据头给出了图像编码类型、码表选择、图像组头部开始码、视频磁带记录时间及控制码、涉及B帧处理的closed GOP、broken link。为了给编辑数据流提供接入点,第1个总是I帧。

3)图像层(PL)

? ? PL由数据头和1帧图像数据组成,是图像组层若干幅图像中的1幅,包含了1幅图像的全部编码信息。MPEG-2图像扫描可有逐行或隔行两种方式:当为逐行时,图像为逐帧压缩;当为隔行时,图像为逐场或逐帧压缩,即在运动多的场景采用逐场压缩,在运动少的场景采用逐帧压缩。

? ? 因为,从整个帧中去除的空间冗余度比从个别场中去除得多。其中,数据头提供的基本部分有头起始码、图像编号的时间基准、图像(I,B,P)帧类型、视频缓存检验器延迟时间等,扩展部分有图像编码扩展、图像显示扩展、图像空间分级扩展、图像时间分级扩展等。其中,基本部分由MPEG-1及MPEG-2共用,扩展部分由MPEG-2专用。

? ? 一幅视频图像是由亮度取样值和色度取样值组成的,而亮度与色度样值比例的大小是由取样频率之比决定的。在MPEG-2中,亮度与色度之间的比例格式有4:2:0(或4:0:2)、4:2:2、4:4:4三种。

4) 宏块条层(SL)

? ? SL由附加数据和一系列宏块组成,其最小长度 = 1个宏块,当长度 = 图像宽度时,就成了MPEG-2层面中最大宏块条长度。为了隐匿误差,提高图像质量,将图像数据分成由若干个宏块或宏块条组成的一条条位串。一旦某宏块条发生误差,解码器可跳过此宏块条至下一宏块条的位置,使下一宏块条不受有误差而无法纠正的宏块条的影响,一个位串中的宏块条越多,隐匿误差性能就越好。为此,附加数据部分定义了宏块条在整个图像中的位置、默认的全局量化参数、变量优先切换点(PBP-Priority Break Point)。其中,PBP用于指明数据流在何处分开,解码器要在两个数据流的恰当点处切换,以保证读取完整、正确的解码信息,确保解码完整无误。注意,在离散余弦反变换(IDCT-Inverse Discrete Cosine Transform)时,SL可提供重新同步功能。

5) 宏块层(ML)

??? ML是宏块条层中一系列宏块中的1块,由附加数据、亮度块和色度块共同组成。其中,亮度为16×16像素块,称为宏块。宏块是码率压缩中运动补偿的基本单元,由4个8×8像素块构成,用于消除P图像与B图像之间的时间冗余度。色度块由多少个8×8像素块构成,取决于亮度与色度之间取样频率的比例格式。如MPEG-2有4:2:0、4:2:2、4:4:4三种宏块结构,取样结构如图11所示。图中4:2:0是由4个8×8亮度(Y)像素块、2个8×8红色(Cr)像素块及0个8×8兰色(Cb)像素块构成的,或4:0::2是由4个8×8亮度(Y)像素块、0个8×8红色(Cr)像素块及2个8×8兰色(Cb)像素块构成的,4:2:0与4:0:2是交替进行的,使垂直分解力降低(类似4:1:1使水平分解力降低),只含有1/4的色度信息。4:2:2是由4个8×8亮度(Y)像素块、2个8×8红色(Cr)像素块及2个8×8兰色(Cb)像素块构成的,只含有1/2的色度信息。4:4:4是由4个8×8亮度(Y)像素块、4个8×8红色(Cr)像素块及4个8×8兰色(Cb)像素块构成的,是全频宽YCrCb视频。宏块层ML包含P帧及B帧的运动矢量(MV-Motion Vectors)。附加数据包含的信息有:表明宏块在宏块条层中位置的宏块地址、说明宏块编码方法及内容的宏块类型、宏块量化参数、区别运动矢量类型及大小、表明以场离散余弦变换(DCT- Discrete Cosine Transform)还是以帧DCT进行编码的DCT类型。

6) 块层(BL)

? ? BL是只包含1种类型像素的8×8像素块,即是单一的8×8亮度(Y)像素块,或是单一的8×8红色(Cr)像素块,或是单一的8×8兰色(Cb)像素块。它是提供DCT系数的最小单元,即其功能是传送直流分量系数和交流分量系数。若需要对宏块进行DCT,也要先将宏块分成像素块后再进行。

2. MPEG-2帧间编码结构

??? 为了在高效压缩编码的条件下、获得可随机存取的高压缩比、高质量图像,MPEG定义了I、P、B三种图像格式,分别简称为帧内图(Intra Picture)、预测图(Predicted Picture)及双向图(Bidirec tional Picture),即I图、P图及B图,用于表示1/30s时间间隔的帧序列画面。因为,要满足随机存取的要求,仅利用I图本身信息进行帧内编码就可以了;要满足高压缩比和高质量图像的要求,单靠I图帧内编码还不行,还要加上由P图和B图参与的帧间编码,以及块匹配运动补偿预测,即用前一帧图像预测当前图像的因果预测和用后一帧图像预测当前图像的内插预测。这就要求帧内编码与帧间编码平衡,因果预测与内插预测间的平衡。平衡的结果是随机存取的高压缩比、高质量图像的统一。图12是MPEG-2帧间编码结构图,其中:

1) 帧内编码图(ICP)

? ? I图为不要基准图像编码作为基准所产生的图像,称为帧内编码图(ICP-Intra Coded Pictures)。特点是:数据量最大;帧内中等程度压缩;无运动预测,可采用自相关性,即帧内相邻像素、相邻行的亮度、色度信号都具有渐变的空间相关性,可作静止图像处理,无条件传送;图像可随机进入压缩图像数据序列,进行编码。

2) 预测编码图(PCP)

? ? P图是以最近的上一个I图或P图为基准进行运动补偿预测所产生的图像,称为预测编码图(PCP-Predictive Coded Pictures)。P图的特点是:本身是前I图或P图的前向预测(FP-Forward Prediction)结果,也是产生下一个P图的基准图像;高编码效率,与I图相较,可提供更大的压缩比;前一个P图是下一个P图补偿预测的基准,如果前者存在误码,则后者会将编码误差积累起来、传播下去。

3) 双向预测编码图(BPCP)

? ? 目前对B图有两种趋同的理解:其一,B图是同时以前面的I图或P图和后面的P图或I图为基准进行运动补偿预测所产生的图像,称为双向预测编码图(BPCP-Bidirectional Predictive Coded Picture)。前面的I图或P图代表“过去信息”,后面的P图或I图代表“未来信息”,由于同时使用了“过去”和“未来”两种信息,所以称为双向预测。其二,由于帧序列相邻帧画面间的运动部分具有连续到时间相关性,可将当前画面看成是前一画面某一时刻图像的位移,当然位移方向及幅值在帧内各处未必相同,只要用前面最近时刻的I图或P图及代表运动的位移信息,便可预测出当前图像,称为前向预测(FP)。根据某时刻的图像及反映位移信息的运动矢量,预测出某时刻以前的图像,以便预测出前一帧中没有显露而现在出现的信息,称为后向预测(BP-Backword Prediction)。B图是将前向预测(FP)与后向预测(BP)同时使用并取其平均值后所产生的图像,称为双向预测图或平均值预测图。

? ? 由图12可见,一个GOP由I为起始的一串IBP帧组成,GOP的长度是前一个I帧到下一个I帧之前的B帧之间的间隔,如I1B2B3P4B5B6P7B8B9I10中从I1到B9就是GOP的长度。GOP越长,MPEG-2编码越有效,而数据流的编辑及组接越困难。一般,最多由12帧组成。基准帧重复频率的不同,可提供不同的输出码率。GOP的结构随码率变化而不同,如码率大于40Mbps时,帧重复方式为只有I帧,GOP最短,具有高效率的优点;码率为15-40Mbps时,帧重复方式为IB,GOP较短;码率小于15 Mbps时,帧重复方式为IBP或IBBP,GOP较长,有延迟,影响存取速度。总之,图像质量随着码率10-50 Mbps的升高而提高,随着帧重复方式I-IB-IBBP使GOP变长而增长。尽管帧重复方式可以是IP,IB,IBP,IBBP,甚至是只有I帧,但针对不同的应用及码率,有不同的GOP结构:新闻编采,码率18Mbps,采用IB帧的GOP结构;节目分配,码率20Mbps,采用IBBP帧的GOP结构;存档,码率30Mbps,采用IB帧的GOP结构:后期制作,码率50Mbps,采用I帧GOP结构。图13表示了GOP与图像质量的关系及应用,图中编码规则是:I帧4:2:2 @ ML MPEG速率为40-50Mbps;IBIBIB序列速率为25-30Mbps;长GOPIBP序列速率为12-18 Mbps

??? 系统对B帧像素不编码、不传送、不作为预测基准。仅在解码时,用双向预测的插值法建立,如I1与P4之间的B2、B3帧由I1和P4加权内插而建立。B帧像素块数据中,仅携带着为每个像素块设置的“运动矢量”。

3.MPEG-2视频压缩基础

? ? 码率压缩要从视觉对象、视觉生理、视觉心理3个方面入手,研究符合于人类视觉规律的视觉模型。由于视觉心理是1个很复杂的问题,难以得到其规律。因此,码率压缩只能在利用图像信号的统计特性和人类眼睛的视觉特性的基础上来进行。

1) 利用图像信号的统计特性进行压缩

? ? 同一帧电视图像中相邻像素之间的幅度值相近,即同一行上的相邻像素之间幅值相近,相邻行之间同样位置上的像素幅值相近,体现了电视图像的空间冗余度;相邻两帧电视图像同一位置上像素幅度值相近,体现了电视图像的时间(动态)冗余度,如图14所示。另外,每个像素所用bits数的多少表示了比特结构,多用的比特数为冗余量,体现了静态(比特结构)冗余度

??? 因此,为了清楚地了解空间冗余度、时间冗余度和静态冗余度三者之间的关系,可以通过图15所示的电视图像信息的三维表示来说明。需要指出的是采用运动补偿(MC)去除时间冗余度要进行160亿次的算术运算;采用离散余弦变换(DCT)和游程长度编码(RLC)去除空间冗余度要进行20亿次的算术运算;采用可变长度编码(VLC)去除静态(比特结构)冗余度要象“Morse Code”那样进行比特匹配。MPEG压缩算法如图16所示。为了减少计算量,最佳算法的探讨及其标准化是很重要的

2) 利用人眼的视觉特性进行压缩

? ? 人眼对构成图像的不同频率成分、物体的不同运动程度等具有不同的敏感度,这是由人眼的视觉特性所决定的,如人的眼睛含有对亮度敏感的柱状细胞1.8亿个,含有对色彩敏感的椎状细胞0.08亿个,由于柱状细胞的数量远大于椎状细胞,所以眼睛对亮度的敏感程度要大于对色彩的敏感程度。据此,可控制图像适合于人眼的视觉特性,从而达到压缩图像数据量的目的。例如,人眼对低频信号的敏感程度大于对高频信号的敏感程度,可用较少的bit数来表示高频信号;人眼对静态物体的敏感程度大于对动态物体的敏感程度,可减少表示动态物体的bit数;人眼对亮度信号的敏感程度大于对色度信号的敏感程度,可在行、帧方向缩减表示色度信号的bit数;人眼对图像中心信息的敏感程度大于对图像边缘信息的敏感程度,可对边缘信息少分配bit数;人眼对图像水平向及垂直向信息敏感于倾斜向信息,可减少表示倾斜向信息高频成分的bit数等。在实际工作中,由于眼睛对亮度、色度敏感程度不一样,故可将其分开处理。

? ? 为此,将单元分量RGB改变为YUV(或YCrCb)全分量。在编码时强调亮度信息,可去掉一些色度信息,如4:4:4变为4:2:2,码率由270Mbps降低到180Mbps。

? ? 由上述可见,电视系统存在着冗余信息,在传输图像信息之前,只要将这些冗余信息去除,就可以实现适度的压缩。由于去除这些冗余信息对图像质量无影响,故称其为“无损压缩”。如,从视频信号中去除同步信息。无损压缩的压缩比不高,压缩能力有限。为了提高压缩比,MPEG标准采用了对图像质量有损伤的“有损压缩”技术。

4. MPEG-2视频编码方式

? ? 为了提高压缩比及图像质量,MPEG-2视频编码采用运动补偿预测(时间预测+内插)消除时间冗余和不随时间变化的图像细节;采用二维DCT(图像像素+量化传输系数)分解相邻像素,消除观众不可见、不重要的图像细节;采用熵值编码(已量化参数+编码参数的熵),使bit数减少到理论上的最小值。对以上3种压缩技术,作如下说明:

1)运动补偿预测

??? 将存储器中前一图像帧的重建图像中相应的块按编码器端求得的运动矢量进行位移,这就是运动补偿过程。为了压缩视频信号的时间冗余度(Temporal Redundancy),MPEG采用了运动补偿预测(Motion Compensated Prediction),图17是其运动处理过程示意图。运动补偿预测假定:通过画面以一定的提前时间平移,可以局部地预测当前画面。这里的局部意味着在画面内的每个地方位移的幅度和方向可以是不相同的。采用运动估值的结果进行运动补偿,以便尽可能地减小预测误差。运动估值包括了从视频序列中提取运动信息的一套技术,该技术与所处理图像序列的特点决定着运动补偿性能的优劣。与画面16×16像素宏块相关的运动矢量支持接收机解码器中的运动补偿预测。所谓预测,实际上是由前一(n-1)图像帧导出当前(n)图像帧所考虑像素的预测值,而后由运动矢量编码传输n帧的实际像素值与其预测值之间的差值。例如,设宏块为M×N的矩形块,将图17中的n-1帧的宏块与n帧的宏块进行比较。这实际上是一个如图18所示的进行宏块匹配的运动补偿过程,即将n帧中16×16像素的宏块与n-1帧中限定搜索区(SR)内全部16×16像素的宏块进行比较。若n-1帧图像亮度信号为f n -1 (i , j),n帧图像亮度信号为f n (i , j),其中(i , j)为n帧的M×N宏块的任意位置,并将n帧中的一个M×N的宏块看作是从n-1帧中平移而来的,而且规定同一个宏块内的所有像素都具有同样的位移值(k,l) 。这样,通过在n-1帧限定搜索区(SR)内进行搜索,总可以搜索到某一宏块,使得该宏块与n帧中要匹配的宏块的差值的绝对值达到最小,并得到运动矢量的运动数据,在n-1帧和运动数据的控制下,获得n帧的一个相应的预测值。照此办理,直到n帧的M×N宏块的任意位置(i , j)的像素全部通过n-1帧的像素预测出来。

??? 需要说明的是:MPEG定义了基于帧、基于场及双场的图像预测,也定义了16×8的运动补偿。

? ? MPEG-2:有逐行扫描方式,可以采用基于帧的图像预测;有隔行扫描方式,也可以采用基于场的图像预测。因此,MPEG-2编码器要对每个图像先判断是帧模式压缩还是场模式压缩。在隔行扫描方式下:运动少的场景时,采用基于帧的图像预测,因为基于帧的图像两相邻行间几乎没有位移,帧内相邻行间相关性强于场内相关性,从整个帧中去除的空间冗余度比从个别场中去除得多;剧烈运动的场景时,采用基于场的图像预测,因为基于帧的相邻两行间存在1场延迟时间,相邻行像素间位移较大,帧内相邻行间相关性会有较大下降,基于场的图像两相邻行间相关性强于帧内相邻行间相关性,在1帧内,场间运动有很多高频分量,从场间去除的高频分量比从整个帧中去除的多。由上述可见,选择基于帧的图像预测还是基于场的图像预测的关键是行间相关性。所以,在进行DCT之前,要作帧DCT编码或场DCT编码的选择,对16×16 的原图像或亮度进行运动补偿后所获得的差值作帧内相邻行间和场内相邻行间相关系数的计算。若帧内相邻行间相关系数大于场内相邻行间相关系数,就选择帧DCT编码,反之选场DCT编码。2)二维DCT

? ? MPEG采用了Ahmed N.等人于1974年提出的离散余弦变换(DCT-Discrete Cosine Transform)压缩算法,降低视频信号的空间冗余度(Spatial Redundancy)。因为静态图像和预测误差信号两者具有非常高的空间冗余度,为降低空间冗余度最广泛地采用的频率域分解技术就是DCT。DCT将运动补偿误差或原画面信息块转换成代表不同频率分量的系数集。这有两个优点:其一,信号常将其能量的大部分集中于频率域的1个小范围内,这样一来,描述不重要的分量只需要很少的比特数;其二,频率域分解映射了人类视觉系统的处理过程,并允许后继的量化过程满足其灵敏度的要求。视频信号的频谱线在0-6MHz范围内,而且1幅视频图像内包含的大多数为低频频谱线,只在占图像区域比例很低的图像边缘的视频信号中才含有高频的谱线。因此,在视频信号数字处理时,可根据频谱因素分配比特数:对包含信息量大的低频谱区域分配较多的比特数,对包含信息量低的高频谱区域分配较少的比特数,而图像质量并没有可察觉的损伤,达到码率压缩的目的。然而,这一切要在低熵(Entropy)值的情况下,才能达到有效的编码。能否对一串数据进行有效的编码,取决于每个数据出现的概率。每个数据出现的概率差别大,就表明熵值低,可以对该串数据进行高效编码。反之,出现的概率差别小,熵值高,则不能进行高效编码。视频信号的数字化是在规定的取样频率下由A/D转换器对视频电平转换而来的,以256层或1024层表示输入视频信号的幅度,每个像素的视频信号幅度随着每层的时间而周期性地变化。每个像素的平均信息量的总和为总平均信息量,即熵值。由于每个视频电平发生几乎具有相等的概率,所以视频信号的熵值很高,如图21所示。 熵值是一个定义码率压缩率的参数,视频图像的压缩率依赖于视频信号的熵值,在多数情况下视频信号为高熵值,要进行高效编码,就要将高熵值变为低熵值。怎样变成低熵值呢?这就需要分析视频频谱的特点。由图22视频频谱分析可见:大多数情况下,视频频谱的幅度随着频率的升高而降低。其中低频频谱在几乎相等的概率下获得0到最高的电平。与此相对照,高频频谱通常得到的是低电平及稀少的高电平。显然,低频频谱具有较高的熵值,高频频谱具有较低的熵值。据此,可对视频的低频分量和高频分量分别处理,获得高频的压缩值


??? 由上述可见,码率压缩基于如图23所示的变换编码和熵值编码两种算法。前者用于降低熵值,后者将数据变为可降低比特数的有效编码方式。在MPEG标准中,变换编码采用的是DCT,变换过程本身虽然并不产生码率压缩作用,但是变换后的频率系数却非常有利于码率压缩。实际上压缩数字视频信号的整个过程分为块取样、DCT、量化、编码4个主要过程进行,如图24所示。首先在时间域将原始图像分成N(水平)×N(垂直)取样块,根据需要可选择4×4、4×8、8×8、8×16、16×16等块,考虑到消除数据相关性及计算复杂度的恰当的折衷,图中选择了8×8像素块。这些8×8取样的像素块代表了原图像各像素的灰度值,其范围在139-163之间,并依序送入DCT编码器,以便将取样块由时间域转换为频率域的DCT系数块。DCT系统的转换分别在每个取样块中进行,这些块中每个取样是数字化后的值,表示一场中对应像素的视频信号幅度值。
??? 例如,当u,v = 0 时,离散余弦正变换(DCT)后的系数若为F(0,0)=1,则离散余弦反变换(IDCT)后的重现函数f(x,y)=1/8,是个常数值,所以将F(0,0)称为直流(DC)系数;当 u,v≠0时,正变换后的系数为F(u,v)=0,则反变换后的重现函数f(x,y)不是常数,此时正变换后的系数F(u,v)为交流(AC)系数。

? ? 由DCT正变换公式(2)及反变换公式(3)可见,计算有一定的复杂性。但是,实际上这个函数是用代码来实现的,即两个余弦项只在程序开始时进行1次计算,将计算的结果储存起来,而后通过查表就可以了,其它各项都可以通过查表解决,其程序采用了双层嵌套循环。图25是两个余弦项所构成的核函数Gu,v (x,y)计算的示意图,其中设N = 8, u = 2,v = 3;x = 4, y = 5,可求得G2,3(4,5) = G2,3(4)G2,3(5) = (-0.924) ×(+0.979)= - 0.905,以此类推可得到各个点的值,储存起来备查。通过查表,查出各个项的值,用代码来实现图24中DCT编码器输出的DCT系数。根据式(2)和(3)??进行查表后,利用C语言程序对N×N个矩阵元素的代码采用双层嵌套循环计算如下:
for??(u = 0 , u < N, u ++)
? ???for (v = 0,v < N, v++) {
? ?? ???temp = 0,0;
? ?? ???for (x = 0, x < N, x++)
? ?? ?? ???for (y = 0,y < N, y++) {
? ?? ?? ?? ???temp + = Cosines[x]*Cosines [y] [v] * pixel [x] [y];
? ?? ?? ???}
? ?? ? temp* = sqrt(2 * N ) * Coefficients[v];
? ?? ? DCT [v] = INT_ROUND(temp):
}

? ? 代码中用pixel[x][y]表示式中的f(x,y),用DCT[v]表示式中的F(u,v)。
当前,除了上述直接用双层嵌套循环定义DCT外,还有采用余弦变换矩阵来定义DCT的矩阵计算法,二者机理相同。


? ? 由图24及上述变换原理可察觉两点:其一,DCT后的64个DCT频率系数与DCT前的64个像素块相对应,DCT前后都是64个点,它只是1个本身没有压缩作用的无损变换过程。其二,单独1场图像的全部DCT系数块的频谱几乎都集中在最左上角的系数块中,仅从该块的频谱中就可以形成1幅压缩图像;DCT输出的频率系数矩阵最左上角的直流(DC)系数幅度最大,图24中为315,由于代表了x轴和y轴上的DC分量,所以它表示了输入矩阵全部幅度的平均值;以DC系数为出发点向下、向右的其它DCT系数,离DC分量越远,频率越高,幅度值越小,图24中最右下角为-0.11,即图像信息的大部分集中于直流系数及其附近的低频频谱上,离DC系数越来越远的高频频谱几乎不含图像信息,甚至于只含杂波。显然,DCT本身虽然没有压缩作用,却为以后压缩时的“取”、“舍” 奠定了必不可少的基础。

3)量化

? ? DCT系数采用量化(Quantization)进行压缩是1个关键性的运算,因为组合量化和游程长度编码可以提供最大的压缩量,也可以通过量化使编码器输出匹配成1个给定的比特率。实际上,自适应量化是实现视觉质量的关键性工具之一,在量化中会减少频率域中描述DCT系数的精度。这一点可从图26基本MPEG编码器的运动补偿预测编码过程简化电路图看出。用当前帧的原始图像的取样值减去当前帧解码复原值,其差值为:

fn - fn’= f n - e’n-f*n??=??en+f*n - e’n - f*n = en- e’n = qn? ?? ???(4)? ?? ?


? ? 式(4)中qn为量化误差,即量化误差的大小决定了图像恢复的精度。这表明,可以利用调整量化器误差大小来调整量化精度的高低。实际量化如图27所示,是DCT编码输出的系数块中的每DCT系数除以量化器表中与其系数对应位置上的量化步长。量化步长是1个大于1的值,可根据编码图像的复杂度改变,甚至可对每个DCT块改变量化矩阵值。根据DCT的结果分析,直流分量DC体现了大多数普通图像的内容,应该用较小的量化步长去分配;交流分量AC只体现了普通图像所包含频谱中的很少一部分,应该用较大的量化步长去分配。量化的结果如图24所示,量化了的不同频率的频域系数趋向“0”值,而且这些大群的“0”在许多情况下都是群集在较高频率上。因此,通过一串“0”的个数的编码而不是对每个单独的“0”本身的编码,可以取得附加的压缩效果,这就是游程长度编码(RLC-Run Length Coding

4)编码

? ? 编码是DCT压缩系统的最后一步。在对64个DCT系数均匀量化后,系数分成为直流(DC)和交流(AC)两个部分。DC系数代表了分量模块的平均亮度,可采用差值脉冲编码调制(DPCM)进行编码;对AC系数,由于非零的DCT系数大多数集中在矩阵的左上角,在进行编码之前先对量化后的DCT系数进行“之”字形扫描,有利于得到一个长的“0”序列,提高编码效率。DCT系数扫描方式有“之”字形和“准之” 字形两种。逐行扫描采用“之”字形传送量化后的DCT系数,隔行扫描采用“准之”字形传送量化后的DCT系数,两种扫描方式如图28所示。


? ?通过“之”字形扫描,将8×8的像素块转换成为1×64的码组,以便进行游程长度编码(RLC)和可变长度编码(VLC),如图29所示

??? 为了说明RLC和VLC,这里以图24中的量化输出编码为例,加以说明。量化输出矩阵如图30;量化输出的十进制值出现的概率统计如表3;变长编码如表4。由表4可见,概率大的得到短编码,概率小的得到长编码。如果将这些编码按照图29中“之”字形扫描后数据流排序排列起来.
??? 由图30,31和表3,4可见,原始的8×8像素块要用64×8=512比特,量化和变长编码后要用100比特,高于5:1压缩。经过游程长度编码后,二进制编码的新数据流为58比特,其压缩比高于8:1。显然,编码是码率压缩的关键,因为编码是对数据流中的每个符号分配一种特定的码值的过程,选择最有效的码值决定了编码的有效性,从而有效地降低熵值。这里,对DC分量进行DPCM编码以及对AC分量进行变换编码,如DCT,都是为了降低熵值 ;对AC分量进行熵值编码,如RLC和VLC,都是为了减少比特数
??? 图32为DPCM编码的例子。由图可见,原数据需要传输75比特的数据,通过DPCM后,只需要传输47比特的数据,压缩比为1.6:1。图33是RLC编码的实例,由图可见,原数据52比特经过RLC后,压缩为16比特,压缩比为3.25:1
分享到:
回复

使用道具 举报

回答|共 5 个

倒序浏览

沙发

zsjvchelp

发表于 2008-2-28 10:52:39 | 只看该作者

RE:MPEG-2压缩编码技术原理应用(2)

谢谢楼主 内容真是非常好 但是想知道其他几章在哪可以找到啊 谢谢
回复 支持 反对

使用道具 举报

板凳

xuweitao-26224

发表于 2008-2-29 18:54:13 | 只看该作者

RE:MPEG-2压缩编码技术原理应用(2)

回复 支持 反对

使用道具 举报

地板

gujideshatan

发表于 2008-4-2 21:32:55 | 只看该作者

RE:MPEG-2压缩编码技术原理应用(2)

回复 支持 反对

使用道具 举报

5#

xuweitao-26224

发表于 2008-4-14 22:48:01 | 只看该作者

RE:MPEG-2压缩编码技术原理应用(2)

回复 支持 反对

使用道具 举报

6#

gujideshatan

发表于 2008-4-23 23:44:23 | 只看该作者

RE:MPEG-2压缩编码技术原理应用(2)

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 注册/登录

本版积分规则

关闭

站长推荐上一条 /3 下一条