在可伸缩视频编码中的量化矩阵信令和表示的方法和装置的制造方法
【专利说明】在可伸缩视频编码中的量化矩阵信令和表示的方法和装置
[0001]交叉引用
[0002]本申请享有2013年4月8日提出的申请号为61/809,508、标题为“OnQuantizat1n Matrix Signalling and Representat1n for Scalable Video Coding and3D Video Coding”的美国临时申请的优先权。上述申请的全文作为本申请的引用基础。
技术领域
[0003]本发明是有关于可伸缩视频编码或三维/多视点视频编码,特别是有关于为改善编码效率,共用不同层或不同视点之间的量化矩阵的技术。
【背景技术】
[0004]视频流媒体已经成为当今的主流视频传输。由无处不在的高速互联网和移动网络支持,可以传送视频内容至终端使用者,以使得使用者在具有不同品质的不同平台上观看。为满足各种视频流应用的不同需要,可能需要以不同分辨率、帧率(frame rate)、及/或品质来处理或存储视频源。这将导致相当复杂的系统并需要高的总体带宽或大的总体存储空间。可伸缩视频编码是一个满足不同分辨率、帧率、品质、及/或比特率需要的方案。除了各种专有开发致力于解决此问题之外,可伸缩视频编码的现有的视频标准也可解决此问题。IS0/IEC MPEG和ITU-T VCEG的联合视频工作组(joint video team, JVT)已经标准化一个对于H.264/AVC标准的可伸缩视频编码(Scalable Video Coding, SVC)的扩展。H.264/AVC可伸缩视频编码比特流包含从低帧率(frame-rate)、低分辨率、低品质到高帧率、高清晰度、高品质的视频信息。此种单一的比特流可通过适当地配置比特流的可伸缩来适应具体的应用。举例来说,对应于高清晰度的完整的比特流可以通过高速网络来传送,以提供大屏幕观看的充分的品质。对应于高清晰度视频的低分辨率版本的部分比特流可以通过传统蜂窝网络来传送,以在手持/移动设备上观看。相应地,使用H.264/AVC可伸缩视频编码产生的比特流适合各种视频应用,例如视频广播、视频流、和监控(surveillance)。
[0005]在可伸缩视频编码中,提供三种可伸缩类型,即时间可伸缩、空间可伸缩以及品质可伸缩。可伸缩视频编码使用多层编码结构以实现三维可伸缩。可伸缩视频编码的概念是产生一个可伸缩比特流,其中该可伸缩比特流可在无反式编码(transcoding)或重编码(re-encoding)的情况下简单快速地适用多种传输信道、各种显示能力及/或不同计算资源的比特率。可伸缩视频编码设计的重要特点是在比特流层(bitstream level)提供可伸缩性。可以通过丢弃不需要解码目标分辨率的网络提取层(NAL)单元(或网络数据包)来简单取得缩减空间及/或时间分辨率的比特流,可另外减小用于品质精化的NAL单元从而减小比特率及/或降低相应视频品质。
[0006]在H.264/AVC可伸缩视频编码的扩展中,基于金字塔编码(pyramid coding)支持空间可伸缩。首先,降采样(down-sample)视频序列以取得不同空间分辨率(层)的较小图像。最低层(即,具有最低空间分辨率的层)称为基本层(base layer, BL) 0在基本层之上的任意一层称为增强层(enhancement layer, EL)。除了二元的空间分辨率(dyadic spatial resolut1n),H.264/AVC可伸缩视频编码的扩展也支持任意分辨率,其称为扩展空间可伸缩(Extended Spatial Scalability, ESS)。已在文献在中揭露各种层间预测方案(inter-layer predict1n schemes),以改善增强层(具有较高分辨率的视频层)的编码效率。在可伸缩视频编码中,采用三种层间预测工具,包括层间运动预测(inter-layer mot1n predict1n)、层间帧内预测(inter-layer Intrapredict1n)以及层间残差预测(inter-layer residual predict1n)(例如,C.AndrewSegall 和 Gary J.Sullivan, “Spatial Scalabilityffithin the H.264/AVC ScalableVideo Coding Extens1n,,,IEEE Transact1ns on Circuits and Systems for VideoTechnology, Vol.17, N0.9, Pages 1121-1135,2007.09)。
[0007]图1为根据H.264/AVC可伸缩视频编码的空间可伸缩设计的示意图。基本层编码器110接收较低分辨率视频序列作为输入,并使用现有的H.264/AVC视频编码来编码该低分辨率序列。编码模式选择112在帧内预测(Intra-predict1n)和运动补偿帧间预测(mot1n-compensated Inter-predict1n)之间选择预测模式。增强层编码器120接收较高分辨率序列作为输入。该较高分辨率序列可用与现有的H.264/AVC编码相似的结构来编码。然而,层间预测130可用作附加的编码模式。此外,增强层的模式选择122可以在帧内预测、运动补偿帧间预测和层间预测之间选择预测模式。对于在基本层内的帧内编码区块,重建的区块提供对于增强层的预测。对于在基本层内的帧间编码区块,基本层的运动向量和残差信息(residual difference informat1n)可用于预测增强层。虽然如图1所示的两个分辨率层作为根据H.264/AVC可伸缩视频编码的空间可伸缩的示例,但是可以添加更多的分辨率层,其中较高分辨率的增强层可使用基本层或先前传输的增强层以用于层间预测。此外,可伸缩视频编码增强的其他形式(例如,时间或品质)也可以出现于系统中。
[0008]高效率视频编码(High Efficiency Video Coding,以下简称HEVC)是先进的视频编码系统,其是由来自国际电信联盟远程通信标准化组织(ITU-T)研究组的视频编码专家组成的视频编码联合工作组(JCT-VC)开发的。HEVC采用十分灵活的数据结构,包括编码单元、预测单元、以及变换单元。编码单元、预测单元、以及变换单元可被分割为更小的区块。通常来说,率失真代价(rate-distort1n cost)用于选择编码单元、预测单元以及变换单元的最佳分割。可伸缩视频编码系统也可基于HEVC,以及基于HEVC的可伸缩视频编码系统称为SHVC。
[0009]AVC/H.264和HEVC均为基于区块的编码系统,其中图片被划分为编码区块。对于AVC/H.264,图片被划分为宏块(macroblocks)以及每一个亮度宏块(即,Y分量)由16x16像素构成。对于HEVC,图片被划分为最大编码单元以及每一个编码单元可进一步被分割为较小的编码单元,直到达到最小编码单元为止。然后,利用帧间或帧内预测技术来预测每一个宏块或编码单元,以产生宏块或编码单元的残差。宏块或编码单元的残差被分割为变换单元,以及每一个变换单元由二维变换来处理。每一个变换单元的变换系数可使用量化矩阵来量化。使用熵编码来编码量化变换系数,以形成已编码的比特流的一部分。
[0010]与量化矩阵相关的信息,也称为缩放列表数据(scaling list data),通常包括于已编码比特流中,以使得解码器可相应地应用逆变换。对于AVC来说,提供缩放列表数据,以分别用于4x4和8x8的块尺寸、帧内和帧间预测模式、以及不同的颜色组分(即,Y、Cb、和Cr)。对于HEVC来说,提供缩放列表数据,以用于相似于AVC的4x4和8x8的块尺寸。此夕卜,也提供用于16x16和32x32的块尺寸的缩放列表数据。对于16x16来说,提供缩放列表数据以分别用于帧间或帧内预测模式和颜色组分Y、Cb、Cr,其中自对应的8x8矩阵上采样16x16矩阵。对于32x32来说,提供缩放列表数据,以分别用于帧间和帧内预测模式以及Y组分,其中自对应的8x8矩阵上采样32x32矩阵。
[0011]对于基于SVC的可伸缩系统来说,相似于AVC的量化矩阵集被发送以用于每一层。对于基于SHVC的可伸