IPTV视频编解码标准的对比与选择

  1、引言

  IPTV业务是指基于宽带互联网与宽带接入,以机顶盒或其它具有视频编解码能力的数字化设备作为终端,通过聚合SP的各种流媒体服务内容和增值应用,为用户提供多种互动多媒体服务的宽带增值业务。

  IPTV能否成功开展的一个关键点是采用什么样的视频编解码标准,因为IPTV业务需要在有限的网络带宽条件下提供清晰的图像质量,对编码效率有较高的要求;同时,视频编码标准的选择会直接影响到整个IPTV产业链的发展,涉及从内容编码到流媒体服务器以及组播复制点直至用户机顶盒各个层面,要从某一种编码格式转换为另一种编码格式,需要进行的系统升级甚至硬件更换的成本是极其巨大的。也正因为这一点,视频编码标准的选择一直是IPTV业界关注的首要问题。

  2、视频编解码标准简介

  视频编解码标准有很多种,目前国内IPTV产业中主要采用了MPEG-4、H.264技术以及中国提出的具有自主知识产权的标准AVS这3种标准,相对于H.264和AVS技术标准,MPEG4 ASP在流媒体和IPTV应用市场中起步时间最早,因此产业化程度最成熟,IPTV设备提供商的支持也最广泛;AVS的产业化程度最低,H.264次之。下面对这3种标准进行介绍。

  2.1 MPEG-4标准简介

  运动图像专家组(MPEG)于1999年2月正式公布了MPEG-4(ISO/IEC14496)标准第一版本。同年年底公布了MPEG-4第 2版,且于2000年年初正式成为国际标准。MPEG-4与MPEG-1和MPEG-2有着很大的差异,MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用、交互式多媒体等整合及压缩技术的需求而制定的国际标准。

  MPEG-4除采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些有创见性的关键技术,其中包括:

  (1)视频对象提取技术

  MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象,分别编码后再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。这样可以实现对不同的对象采用不同的编码方法和表示方法,又有利于不同数据类型间的融合,同时也便于对各种对象进行操作及编辑。视频对象提取(即视频对象分割)是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。

  (2)VOP视频编码技术

  视频对象平面(VOP,Video Object Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同的编码策略,即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。MPEG-4支持任意形状图像与视频的编解码。

  (3)视频编码可分级性技术

  MPEG-4通过视频对象层(VOL,Video Object Layer)数据结构来实现分级编码。MPEG-4提供了两种基本分级工具,即时域分级(Temporal Scalability)和空域分级(Spatial Scalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。

  (4)运动估计与运动补偿技术

  MPEG-4采用I-VOP、P-VOP、B-VOP3种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索技术和重叠运动补偿技术,同时又引入重复填充(repetitive padding)技术和修改的块匹配(modified block matching)技术以支持任意形状的VOP区域。

  在MPEG-4视频编码中,运动估计相当耗时,对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H.263和MPEG中广泛采用。

  2.2 H.264标准简介

  2003年,ITU-T通过了一个新的数字视频编解码标准,即H.264标准,H.264是由ISO/IEC与ITU-T组成的联合视频组制定的新一代视频压缩编解码标准。国际电信联盟将该系统命名为H.264/AVC,国际标准化组织和国际电工委员会将其称为14496-10/MPEG-4 AVC。

  H.264标准只有3个子集:基本子集、主体子集和扩展子集。基本子集是专为视频会议应用设计的,能够提供强大的差错隐消技术,并且支持低延时编/解码技术,使视频会议显得更自然。主体子集和扩展子集更适合于电视应用(数字广播、DVD)和延时影响不会太大的视频流应用。

  H.264标准的关键技术如下:

  (1)帧内预测编码

  帧内编码用来缩减图像的空间冗余。为了提高H.264帧内编码的效率,在给定帧中充分利用相邻宏块的空间相关性,相邻的宏块通常含有相似的属性。因此,在对一给定宏块编码时,首先可以根据周围的宏块预测,然后对预测值与实际值的差值进行编码,这样,相对于直接对该帧编码而言,可以大大减小码率。H.264提供6种模式进行4×4像素宏块预测,包括1种直流预测和5种方向预测,H.264也支持16×16的帧内编码。

  (2)帧间预测编码

  帧间预测编码利用连续帧中的时间冗余来进行运动估计和补偿。H.264的运动补偿支持以往的视频编码标准中的大部分关键特性,而且灵活地添加了更多的功能,除了支持P帧、B帧外,H.264还支持一种新的流间传送帧——SP帧,码流中包含SP帧后,能在有类似内容

  但有不同码率的码流之间快速切换,同时支持随机接入和快速回放模式。

  (3)整数变换

  在变换方面,H.264使用了基于4×4像素块的类似于DCT的变换,但使用的是以整数为基础的空间变换,不存在反变换。与浮点运算相比,整数 DCT变换会引起一些额外的误差,但因为DCT变换后的量化也存在量化误差,与之相比,整数DCT变换引起的量化误差影响并不大。此外,整数DCT变换还具有减少运算量和复杂度,有利于向定点DSP移植的优点。

  (4)量化

  H.264中可选32种不同的量化步长,这与H.263中有31个量化步长很相似,但是在H.264中,步长是以12.5%的复合率递进的,而不是一个固定常数。在H.264中,变换系数的读出方式也有两种:之字形(Zigzag)扫描和双扫描,大多数情况下使用简单的之字形扫描;双扫描仅用于使用较小量化级的块内,有助于提高编码效率。

  (5)熵编码

  视频编码处理的最后一步就是熵编码,H.264标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC)与统一的变长编码(UVLC)结合;另一种是基于内容的自适应二进制算术编码(CABAC)。CAVLC与CABAC根据相临块的情况进行当前块的编码,以达到更好的编码效率。CABAC比CAVLC压缩效率高,但要复杂一些。

  2.3 AVS标准简介

  AVS是基于我国创新技术和部分公开技术的自主标准,AVS标准包括系统、视频、音频、数字版权管理等4个主要技术标准和一致性测试等支撑标准。2002年在信息产业部支持下,成立了“数字音视频编解码技术标准”工作组(简称AVS工作组),在国内外上百家企业和科研单位共同参与下,AVS标准制定工作进展顺利,其中最重要的视频编码标准于2005年通过国家广电总局测试,2006年1月得到信息产业部批准,2月国家标准化管理委员会正式颁布,3月1日起实施。

  AVS视频编解码的核心技术包括:8×8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码等。

  (1)变换量化

  AVS的8×8变换与量化可以在16位处理器上无失配地实现,从而克服了H.264之前所有视频压缩编码国际标准中采用的8×8 DCT变换存在失配的固有问题。而H.264所采用的4×4整数变换在高分辨率的视频图像上的去相关性能不及8×8的变换有效。AVS采用了64级量化,可以完全适应不同的应用和业务对码率和质量的要求。

  (2)帧内预测

  AVS的帧内预测技术沿袭了H.264帧内预测的思路,用相邻块的像素预测当前块,采用代表空间域纹理方向的多种预测模式。但AVS亮度和色度帧内预测都是以8×8块为单位的。亮度块采用5种预测模式,色度块采用4种预测模式,而这4种模式中又有3种和亮度块的预测模式相同。在编码质量相当的前提下,AVS采用较少的预测模式,使方案更加简洁、实现的复杂度大为降低。

  (3)帧间预测

  帧间运动补偿编码是混合编码技术框架中最重要的部分之一。AVS标准采用了16×16,16×8,8×16和8×8的块模式进行运动补偿,而去除了H.264标准中的8×4,4×8,4×4的块模式,目的是能更好地刻画物体运动,提高运动搜索的准确性。较少的块模式,能降低运动矢量和块模式传输的开销,从而提高压缩效率、降低编解码实现的复杂度。

  (4)熵编码

  AVS熵编码采用自适应变长编码技术,在AVS熵编码过程中,所有的语法元素和残差数据都是以指数哥伦布码的形式映射成二进制比特流。采用指数哥伦布码的优势在于:一方面 ,它的硬件复杂度比较低,可以根据闭合公式解析码字,无需查表;另一方面,它可以根据编码元素的概率分布灵活地确定以k阶指数哥伦布码编码,如果k选得恰当,则编码效率可以逼近信息熵。

  3、三种编码标准的对比与选择

  3.1 基本性能对比

  3种编码标准的基本功能对比如表1:

  表1 3种视频编解码标准的基本功能

  这3种主要编码技术各有优缺点,MPEG-4标准因为发布较早,产业化程度较高,因此产品相对成熟,内容比较丰富、价格也较低,同时算法复杂度较低,但相应的问题是编码效率也相对较低,需要占用较多的带宽,对网络要求较高,对于现有网络需要进行升级改造才能满足其需求。

  对于H.264标准,目前市场上已经有多家厂商提供H.264芯片和机顶盒,产品开始成熟,内容也逐渐丰富,而且因为采用了多项提高图像质量和增加压缩比的技术措施,在不影响视频效果的情况下能够比MPEG-4节约39%的码率,因而占用带宽较低。例如要达到标清的播放质量,MPEG-4编码需要1.5~2Mbit/s的码率,而H.264只需要1.2~1.5Mbit/s码率即可;对于高清图像质量,MPEG-4编码的视频码

  率需要 6~8Mbit/s,而H.264只需要4~6Mbit/s。因此采用H.264可以大大节约网络带宽,减少网络改造的压力,且在带宽相同的情况下能够覆盖更多的用户。同时,由于H.264是由ITU-T和ISO/IEC联合制定的,所以对解码兼容性有着明确的定义,具有较强的抗误码能力,容易获得稳定的图像,适用于丢包率高、干扰严重的信道传输。不过H.264的算法复杂度较高,系统开销也比较大。

  AVS是近几年才提出的视频标准,产业化进程落后于H.264。但是AVS的编码效率与H.264相当,而算法复杂度比H.264明显低,其编码复杂度相当于H.264的30%;解码复杂度相当于H.264的70%,软硬件实现成本都低于H.264;同时由于我国掌握主要知识产权,专利授权模式简单,专利费用低,因此可以预见AVS标准将会是支撑国家数字音视频产业发展的重要标准。

  3.2 专利费用对比

  如果采用国外的技术标准,不得不面临高昂的专利费用的问题。3种标准对应的专利费用如表2所示:

  表2 3种标准的专利费用

  可以看出在专利费方面AVS占有绝对的优势。MPEG-4和H.264不仅要收软硬件的专利费,而且还要收取节目点播费用等,如果按照这两种标准的专利收费标准,中国庞大用户群将给运营商带来每年数以亿计的巨大专利费负担;而AVS只收取1元人民币的象征性费用,对于运营商来讲非常具有吸引力。

  3.3 应用情况对比

  从目前的应用情况来看,MPEG-4和H.264在中国市场具有一定的发展优势,在中国电信和中国网通已经开展的IPTV试验及商用网中, MPEG4和H.264同时存在,例如中国电信在上海截止目前已经有15万左右的IPTV用户,使用的是H.264编码标准;广东电信的IPTV商用网也将实现MPEG4向H.264标准的整体平移。中国网通现已开展了基于AVS标准的IPTV试验。由于AVS推出较晚,还处于上下游产业链的完善阶段,在市场的推广和开拓方面还有待加强,真正商用有待验证其图像质量、商用情况是否满足商用要求和产业链的逐渐成熟。目前3种标准常见的应用场景列举如表3:

  表3 3种标准的应用场景

  3.4 三种编码标准的选择

  由上面的对比可以看出,3种编码标准在性能、设备成本、产业化程度及专利费用方面都各有千秋,具体选择哪种视频编码标准还需综合考虑各方面因素。对于IPTV产业来说,H.264得到了电信运营商及设备提供商的支持,目前已经逐渐占据市场主流的地位,而AVS凭借低廉的专利费优势,长远来说对运营商更具诱惑力,同时又得到了中国政府的支持,今后的应用前景将比较乐观。

  4、结束语

  本文讨论了目前国内IPTV产业中主要采用的3种编码标准MPEG-4、H.264及AVS。通过介绍和对比这3种标准,可以看出 H.264/AVS是目前主流的选择。当然事物都在不断发展,音视频编解码技术也处于不断演进的过程中,因此多种编码标准在相当长的时间内还将继续共存。今后的IPTV舞台上,编码标准将花落谁家,让我们拭目以待。

本文转自网络