本公开涉及层间视频编码方法和解码方法,更具体地,涉及针对层间图像之间的光照补偿来推导光照补偿参数的方法。
背景技术:
随着开发和供应用于播放和存储高分辨率或高质量视频内容的硬件,针对用于将高分辨率或高质量视频内容高效编码或解码的视频编解码器的需求逐渐增长。根据传统的视频编解码器,基于具有预定尺寸的宏块来根据有限编码方法对视频进行编码。
经由频率转换将空间域的图像数据转换成频域的系数。根据视频编解码器,将图像分割成具有预定尺寸的块,在每个块上执行离散余弦变换(DCT),并且以块为单位对频率系数进行编码,从而快速计算频率转换。与空间域的图像数据相比,频域的系数容易压缩。具体而言,由于根据视频编解码器的帧间预测或帧内预测的预测误差来表达空间域的图像像素值,因此,当在预测误差上执行频率转换时,可将大量的数据转换成0。根据视频编解码器,可通过用小尺寸的数据替换连续重复生成的数据来减少数据量。
多层视频编解码器对第一层视频和至少一个第二层视频进行编码和解码。通过去除第一层视频和第二层视频的时间/空间冗余和层冗余,可减少第一层视频和第二层视频的数据量。
技术实现要素:
技术问题
用于推导光照补偿参数的第一层相邻样本位置可能位于多层图像的第一层图像的边界外部。
技术方案
提供层间视频编码方法及其设备,以及层间视频解码方法,层间视频解码方法能够在用来推导光照补偿参数的第一层相邻样本位置位于第一层图像的边界外部时通过使用多层图像的第一层图像的边界的样本值来提高编码效率。
根据实施方式的一方面,层间视频解码方法包括:对第一层图像进行解码;确定第一层图像中的、与第二层当前块的位置对应的参考位置;当参考位置的相邻样本位置位于第一层图像的边界外部时,通过使用第一层图像的边界的样本值来确定相邻样本值;以及基于相邻样本值来确定第二层当前块的光照补偿参数。
本公开的技术问题不限于上述特征,并且本领域普通技术人员将通过下文描述清楚地理解其他未陈述的技术问题。
附图说明
图1A是根据各种实施方式的层间视频编码设备的框图。
图1B是根据各种实施方式的层间视频编码方法的流程图。
图2A是根据各种实施方式的层间视频解码设备的框图。
图2B是根据各种实施方式的层间视频解码方法的流程图。
图3示出根据实施方式的层间预测结构。
图4示出根据实施方式的确定光照补偿参数的方法的示例。
图5A和图5B示出根据各种实施方式的确定第一层图像的相邻样本位置的过程的示例。
图6A到图6C示出根据各种实施方式的确定参考位置以确定第一层相邻样本值的方法的示例。
图7A到图7C示出根据各种实施方式的确定参考位置以确定第一层相邻样本值的方法的示例。
图8是根据实施方式的基于根据树形结构的编码单元的视频编码设备的框图。
图9是根据实施方式的基于根据树形结构的编码单元的视频解码设备的框图。
图10是用于描述根据本公开的实施方式的编码单元的概念的示意图。
图11是根据本公开的实施方式的基于编码单元的图像编码器的框图。
图12是根据本公开的实施方式的基于编码单元的图像解码器的框图。
图13是示出根据本公开的实施方式的编码单元和分区的示意图。
图14是用于描述根据本公开的实施方式的编码单元与变换单元之间的关系的示意图。
图15是示出根据本公开的实施方式的多项编码信息的示意图。
图16是示出根据本公开的实施方式的编码单元的示意图。
图17、图18和图19是用于描述根据本公开的实施方式的编码单元、预测单元与变换单元之间的关系的示意图。
图20是用于描述根据表1的编码模式信息的编码单元、预测单元与变换单元之间的关系的示意图。
图21是根据实施方式的存储有程序的盘片的物理结构的示意图。
图22是用于通过使用盘片来记录和读取程序的盘片驱动器的示意图。
图23是用于提供内容分发服务的内容供应系统的整体结构的示意图。
图24和图25分别是根据实施方式的应用本公开的视频编码方法和视频解码方法的移动电话的外部结构和内部结构的示意图。
图26是应用根据本公开的通信系统的数字广播系统的示意图。
图27是示出根据本公开的使用视频编码设备和视频解码设备的云计算系统的网络结构的示意图。
实施本发明的最佳方式
根据实施方式的一方面,层间视频解码方法包括:对第一层图像进行解码;确定第一层图像中的、与第二层当前块的位置对应的参考位置;当参考位置的相邻样本位置位于第一层图像的边界外部时,通过使用第一层图像的边界的样本值来确定相邻样本值;以及基于相邻样本值来确定第二层当前块的光照补偿参数。
确定相邻样本值可包括:基于第一层图像的边界来裁剪参考位置的相邻样本位置。
确定相邻样本值可包括:当相邻样本位置位于第一层图像的左边界或右边界外部时,通过使用第一层图像的左边界或右边界的样本值来确定相邻样本值;以及当相邻样本位置位于第一层图像的顶部边界或底部边界外部时,通过使用第一层图像的顶部边界或底部边界的样本值来确定相邻样本值。
该方法还可包括:通过使用所确定的光照补偿参数来补偿第二层当前块的光照值。
确定第一层图像的参考位置可包括:获取视差矢量,视差矢量表示与第二层当前块对应的第一层参考块;以及通过视差矢量来确定第一层图像中的、与第二层当前块的位置对应的参考位置。
确定第一层图像的参考位置可包括:基于与视差矢量所表示的第一层的位置相邻的整数像素位置来确定参考位置。
当视差矢量表示子像素位置时,第一层图像的子像素位置可被确定为参考位置,并且相邻样本位置可基于所确定的参考位置而确定。
光照补偿参数可包括比例因子和偏移中的至少一个。
根据另一实施方式的一方面,层间视频解码设备包括:第一层解码器,其被配置成重建第一层图像;以及第二层解码器,其被配置成通过使用重建的第一层图像来重建第二层图像,其中,第二层解码器包括:相邻样本确定器,该相邻样本确定器被配置成确定第一层图像中的、与第二层当前块的位置对应的参考位置,并且当参考位置的相邻样本位置位于第一层图像的边界外部时,通过使用第一层图像的边界的样本值来确定相邻样本值;以及光照补偿参数确定器,该光照补偿参数确定器被配置成基于相邻样本值来确定第二层当前块的光照补偿参数。
根据另一实施方式的一方面,层间视频编码方法包括:对第一层图像进行编码;确定第一层图像中的、与第二层当前块的位置对应的参考位置;当参考位置的相邻样本位置位于第一层图像的边界外部时,通过使用第一层图像的边界的样本值来确定相邻样本值;以及基于相邻样本值来确定第二层当前块的光照补偿参数。
确定相邻样本值可包括:基于第一层图像的边界来裁剪参考位置的相邻样本位置。
确定相邻样本值可包括:当相邻样本位置位于第一层图像的左边界或右边界外部时,通过使用第一层图像的左边界或右边界的样本值来确定相邻样本值;以及当相邻样本位置位于第一层图像的顶部边界或底部边界外部时,通过使用第一层图像的顶部边界或底部边界的样本值来确定相邻样本值。
该方法还可包括:通过使用所确定的光照补偿参数来补偿第二层当前块的光照值。
确定第一层图像的参考位置可包括:获取视差矢量,视差矢量表示与第二层当前块对应的第一层参考块;以及通过使用视差矢量来确定第一层图像中的、与第二层当前块的位置对应的参考位置。
确定第一层图像的参考位置可包括基于与视差矢量所表示的第一层的位置相邻的整数像素位置来确定参考位置。
当视差矢量表示子像素位置时,第一层图像的子像素位置可被确定为参考位置,并且相邻样本位置可基于所确定的参考位置而确定。
光照补偿参数可包括比例因子和偏移中的至少一个。
根据另一实施方式的一方面,层间视频编码设备包括:第一层编码器,其被配置成对第一层图像进行编码;以及第二层编码器,其被配置成通过使用第一层图像对第二层图像进行编码,其中,第二层编码器包括:相邻样本确定器,该相邻样本确定器被配置成确定第一层图像中的、与第二层当前块的位置对应的参考位置,以及当参考位置的相邻样本位置位于第一层图像的边界外部时,通过使用第一层图像的边界的样本值来确定相邻样本值;以及光照补偿参数确定器,该光照补偿参数确定器被配置成基于相邻样本值来确定第二层当前块的光照补偿参数。
具体实施方式
下文将参考图1A到图7C描述根据各种实施方式的用于基于块特性来确定是否执行光照补偿的层间视频编码技术和层间视频解码技术。此外,将参考图8到图20描述根据适用于层间视频编码和解码技术的实施方式的基于具有树形结构的编码单元的视频编码技术和视频解码技术。此外,将参考图21到图27描述适用于视频编码方法和视频解码方法的各种实施方式。
在下文中,“图像”可指的是静态图像或视频的移动图像,或者视频本身。
在下文中,“样本”指的是分配到图像的采样位置并且将进行处理的数据。例如,空间域中的图像的像素值或块的残余可以是样本。
首先,将参考图1A到图7C描述根据实施方式的层间视频编码设备、层间视频编码方法、层间视频解码设备和层间视频解码方法。
图1A是根据各种实施方式的层间视频编码设备10的框图。
根据各种实施方式的层间视频编码设备10包括第一层编码器12和第二层编码器14。第二层编码器14可包括相邻样本确定器16和光照补偿参数确定器18。或者,第二层编码器14还可包括用于确定是否在第二层当前块上执行光照补偿的光照补偿确定器(未示出)。
根据另一实施方式的相邻样本确定器16和光照补偿参数确定器18可位于第二层编码器14的外部。
根据各种实施方式的层间视频编码设备10可根据层而将多个图像序列分类,可根据可伸缩视频编码方案对图像序列中的每个进行编码,并且可输出包括根据层进行编码的数据的不同的流。层间视频编码设备10可将第一层图像序列和第二层图像序列编码到不同的层中。
第一层编码器12可对第一层图像进行编码,并且输出包括第一层图像的编码数据的第一层流。
第二层编码器14可对第二层图像进行编码,并且输出包括第二层图像的编码数据的第二层流。
例如,根据基于空间可伸缩性的可伸缩视频编码方案,低分辨率图像可编码为第一层图像,而高分辨率图像可编码为第二层图像。第一层图像的编码结果可输出为第一层流,而第二层图像的编码结果可输出为第二层流。
作为另一示例,多视点视频可根据可伸缩视频编码方案进行编码。左视点图像可被编码为第一层图像,而右视点图像可被编码为第二层图像。或者,中部视点图像、左视点图像和右视点图像可均被编码,其中:中部视点图像被编码为第一层图像、左视点图像被编码为第二层图像,并且右视点图像被编码为第三层图像。或者,中部视点纹理图像、中部视点深度图像、左视点纹理图像、左视点深度图像、右视点纹理图像和右视点深度图像可分别被编码为第一层图像、第二层图像、第三层图像、第四层图像、第五层图像和第六层图像。作为另一示例,中部视点纹理图像、中部视点深度图像、左视点深度图像、左视点纹理图像、右视点深度图像和右视点纹理图像可分别被编码为第一层图像、第二层图像、第三层图像、第四层图像、第五层图像和第六层图像。
作为另一示例,可根据基于时间可伸缩性的时间分层预测来执行可伸缩视频编码方法。可输出第一层流,所述第一层流包括通过对基本帧率图像进行编码而生成的编码信息。时间层次可根据帧率进行分类,并且每个时间层次可根据层进行编码。通过参考基本帧率图像来对较高帧率图像进一步编码,可输出第二层流,所述第二层流包括高帧率的编码信息。
或者,可在第一层和多个延伸层(例如,第二层、第三层、……,以及第K层)上执行可伸缩视频编码。当延伸层的数量是三或更多时,第一层图像以及第二到第K层图像可被编码。因此,第一层图像的编码结果可输出为第一层流,并且第二到第K层图像的编码结果可分别输出为第二到第K层流。
根据各种实施方式的层间视频编码设备10可执行帧间预测,以参考单个层的图像来预测当前图像。通过帧间预测,可生成表明当前图像与参考图像之间的运动信息的运动矢量,以及当前图像与参考图像之间的残余。
此外,层间视频编码设备10可执行层间预测,以参考第一层图像来预测第二层图像。
或者,当根据实施方式的层间视频编码设备10允许三个或更多层(例如,第一层、第二层和第三层)时,层间视频编码设备10可基于多层预测结构来执行第一层图像与第三层图像之间的层间预测,以及第二层图像与第三层图像之间的层间预测。
通过执行层间预测,可生成当前图像与不同层的参考图像之间的位移分量,以及当前图像与不同层的参考图像之间的残余分量。
下文将参考图3描述层间预测结构。
根据各种实施方式的层间视频编码设备10可根据层而执行基于视频的每个图像的块的编码。块可具有正方形形状、矩形形状或任意几何形状,并且不限于具有预定尺寸的数据单元。所述块可以是根据树形结构的编码单元之中的最大编码单元、编码单元、预测单元或变换单元。包括树形结构的编码单元的最大编码单元可有不同的称谓,诸如,编码树单元、编码块树、块树、根块树、编码树、编码根或树干。下文将参考图8到图20描述基于根据树形结构的编码单元的视频编码和解码方法。
帧间预测和层间预测可基于数据单元(诸如,编码单元、预测单元或变换单元)执行。
根据各种实施方式的第一层编码器12可通过在第一层图像上执行包括帧间预测或帧内预测的源编码操作来生成符号数据。符号数据表示每个编码参数的样本值和残余的样本值。
例如,第一层编码器12可通过在第一层图像的数据单元的样本上执行帧间或帧内预测、变换和量化来生成符号数据,并且可通过在符号数据上执行熵编码来生成第一层流。
第二层编码器14可基于树形结构的编码单元对第二层图像进行编码。第二层编码器14可通过在第二层图像的编码单元的样本上执行帧间/帧内预测、变换和量化来生成符号数据,并且可通过在符号数据上执行熵编码来生成第二层流。
根据各种实施方式的第二层编码器14可执行层间预测,以通过使用第一层图像的重建样本来预测第二层图像。为了基于层间预测结构对第二层图像序列的原始第二层图像进行编码,第二层编码器14可通过使用重建的第一层图像来生成预测的第二层图像,并且对原始第二层图像与预测的第二层图像之间的预测误差进行编码。
第二层编码器14可按照块(例如,按照编码单元或预测单元)在第二层图像上执行层间预测。可确定将由第二层图像的块参考的所重建的第一层图像的块。例如,可确定位于与第二层图像的当前块的位置对应的位置的第一层图像的参考块。第二层编码器14可通过使用与第二层块对应的第一层参考块来确定第二层预测块。
第二层编码器14可使用根据层间预测结构通过使用第一层参考块而确定的第二层预测块作为参考图像,以相对于第二层原始块进行层间预测。第二层编码器14可通过使用重建的第一层图像对第二层预测块的样本值与第二层原始块的样本值之间的误差(即,根据层间预测的残余分量)进行变换和量化来执行熵编码。
如上文所述,第二层编码器14可参考基于层间预测结构重建的第一层图像来对当前层图像序列进行编码。或者,根据各种实施方式的第二层编码器14可基于单个层预测结构对第二层图像序列进行编码,而不参考另一层的样本。因此,应注意,第二层编码器14并不始终执行层间预测来对第二层图像序列进行编码。
如上文所述,当层间视频编码设备10对多视点视频进行编码时,第一层编码器12可对第一视点视频进行编码,并且第二层编码器14可对第二视点视频进行编码。不同视点视频可通过使用不同的相机或不同的镜头来获取。由于不同视点可具有拍摄角度、照明度或成像装置(例如,相机或镜头)的不同特性,因此,以不同视点获取的视频之间可出现光照不匹配。这种光照不匹配现象可能与不同视点视频之间的样本值的差异相关。
当不同视点视频之间出现光照不匹配时,层间预测误差可能增加,因此,编码效率可能降低。因此,考虑到视点之间的光照不匹配,层间视频编码设备10的第二层编码器14可对不同视点视频之间的光照差进行补偿和编码。例如,可对将由第一层编码器12编码的第一视点图像与将由第二层编码器14编码的第二视点图像之间的光照差进行编码。由于第一视点图像与第二视点图像之间的光照差被编码,因此,当第二层编码器14对第二视点视频进行编码时,可执行光照补偿。
层间视频编码设备10可根据每个预先确定的数据单元(诸如,当前图像的截片或块)的特性(例如,当前块的分区类型信息)来确定是否执行光照补偿。层间视频编码设备10可生成包括表明是否执行光照补偿的参数的第二层比特流。
根据各种实施方式,光照补偿参数可用于第一层块与第二层块之间的光照补偿。例如,光照补偿参数可包括比例因子和偏移中的至少一个。
用于块单元之间的光照补偿的、包括比例因子和偏移的光照补偿参数可以以比特流的形式传输,或者通过使用第二层当前块的相邻样本值和与当前块对应的第一层参考块的相邻样本值来推导所述光照补偿参数。
具体而言,第二层编码器14的相邻样本确定器16可确定第一层图像的参考位置,并且基于参考位置来确定第一层参考块的相邻样本值。表示层之间的视点差异的视差矢量可用来确定与第二层当前块对应的第一层参考块。视差矢量可以以比特流的形式传输或者由其他类型的编码信息推导出。
视差矢量可表示与第二层当前块的位置对应的第一层图像的参考位置。第二层当前块的位置可以是作为基础位置的当前块的左上角样本的位置。第一层图像的参考位置可以是第一层参考块的左上角样本的位置。
相邻样本确定器16可基于参考位置来确定相邻样本位置。例如,相邻样本位置可包括与第一层参考块相邻的顶部样本位置和左侧样本位置,并且基于参考位置确定。相邻样本位置是用于确定用来推导光照补偿参数的相邻样本值的位置,并且可以是与参考位置间隔开预定偏移的位置。
第二层编码器14的光照补偿参数确定器18可基于相邻样本位置是否有效来确定相邻样本值,并且基于所确定的相邻样本值来确定第二层当前块的光照补偿参数。相邻样本位置有效这一事实可意味着相邻样本位置设在第一层图像内。下文将参考图4详细描述确定光照补偿参数的方法。
在这种情况下,当参考块的相邻样本位置位于第一层图像的边界外部时,可不存在参考块的相邻样本值。因此,编码效率可能降低。此外,用于编码的计算量可能增加,以确定相邻样本位置是否有效。
因此,当基于第一层参考位置的相邻样本位置位于第一层图像的边界外部时,根据各种实施方式的层间视频编码设备10可基于第一层图像的边界位置来改变相邻样本位置,并且通过使用第一层图像的边界的样本值来确定第二层当前块的光照补偿参数。
通过使用第一层图像的边界的样本值,层间视频编码设备10不需要检查相邻样本值的有效性,并且可获取更准确的样本值,从而提高编码效率。例如,层间视频编码设备10可不检查第一层的相邻样本值的有效性,并且可基于第二层当前块的相邻样本值是否有效来执行光照补偿。
现在将参考图1B详细描述用于确定光照补偿参数的层间视频编码设备10的操作。
图1B是根据各种实施方式的层间视频编码方法的流程图。
在操作11中,层间视频编码设备10可对第一层图像进行编码,并且输出包括编码数据的第一层比特流。
在操作13中,层间视频编码设备10可确定第一层图像中的、与第二层当前块的位置对应的参考位置。
层间视频编码设备10可获取并使用表示第一层参考块的第二层当前块的视差矢量。视差矢量可由当前块的相邻块推导出。或者,视差矢量可由与之对应的深度图块推导出。或者,可从比特流中获取视差矢量。
层间视频编码设备10可通过使用视差矢量来确定第一层图像中的、与第二层当前块的位置对应的参考位置。第一层图像的参考位置可以是与第二层当前块对应的第一层参考块的左上角样本的位置。
由于视差矢量可具有分数像素精度,例如,四分之一像素或半像素精度,因此,由第二层当前块的视差矢量表示的第一层图像的位置可以是子像素位置。子像素位置可以是不同于整数像素位置的像素位置。
当视差矢量表示子像素位置时,层间视频编码设备10可将与子像素位置相邻的整数像素位置确定为参考位置,以降低计算复杂性。或者,当视差矢量表示子像素位置时,层间视频编码设备10可将子像素位置确定为参考位置,以提高光照补偿参数的精度,因此提高编码效率。下文将参考图6A到图7B详细描述确定参考位置的过程。
层间视频编码设备10可基于所确定的参考位置来确定第一层参考块。例如,参考位置可以是第一层参考块的左上角的位置。
在操作15中,当参考位置的相邻样本位置位于第一层图像的边界外部时,层间视频编码设备10可通过使用第一层图像的边界的样本值来确定相邻样本值。
具体而言,层间视频编码设备10可基于参考位置来确定第一层相邻样本位置。例如,相邻样本位置可被确定为与参考位置间隔开预定偏移的位置。
层间视频编码设备10可确定所确定的相邻样本位置是否位于第一层图像的边界外部。例如,层间视频编码设备10可通过将相邻样本位置与第一层图像的边界位置进行比较来确定相邻样本位置是否位于第一层图像的边界外部。层间视频编码设备10可将相邻样本位置的第一分量值与第一层图像的左边界和右边界进行比较,并且将相邻样本位置的第二分量值与第一层图像的顶部边界和底部边界进行比较。第一分量值可以是x分量值,并且第二分量值可以是y分量值。
当相邻样本位置位于第一层图像的边界外部时,层间视频编码设备10可通过使用第一层图像的边界的样本值来确定相邻样本值。例如,层间视频编码设备10可基于第一层图像的边界位置来改变相邻样本位置,并且相邻样本值可以是第一层图像的边界的样本值。
例如,层间视频编码设备10可基于第一层图像的边界通过裁剪相邻样本位置来确定相邻样本值。例如,当相邻样本位置的第一分量值位于第一层图像的左边界或右边界外部时,层间视频编码设备10可将相邻样本值改成第一层图像的左边界或右边界的样本值。或者,当相邻样本位置的第二分量值位于第一层图像的顶部边界或底部边界外部时,层间视频编码设备10可将相邻样本值改成第一层图像的顶部边界或底部边界的样本值。第一分量值可以是水平分量值,并且第二分量值可以是竖直分量值。
或者,层间视频编码设备10可通过使用第一层图像的边界的样本值填补参考位置的相邻样本值来确定相邻样本值。
层间视频编码设备10可确定包括所确定的相邻样本值的第一层光照补偿样本列表。
在操作17中,层间视频编码设备10可基于所确定的相邻样本值来确定第二层当前块的光照补偿参数。光照补偿参数可包括比例因子和偏移中的至少一个。
层间视频编码设备10可通过将所确定的第一层参考块的相邻样本值与第二层当前块的相邻样本值进行比较来确定光照补偿参数。例如,层间视频编码设备10可通过将第一层光照补偿样本列表与第二层光照补偿样本列表进行比较来确定光照补偿参数。下文将参考图4详细描述确定光照补偿参数的方法。
层间视频编码设备10可生成第二层比特流,所述第二层比特流包括表明是否执行光照补偿的信息以及第一层参考块与第二层当前块之间的层间预测信息,所述第二层当前块的光照值基于光照补偿参数进行补偿。
层间视频编码设备10可对表明是否在当前块上执行光照补偿的信息和用来确定光照补偿参数的视差矢量进行编码,并且以比特流的形式传输。当可基于预先编码的信息来确定表明是否执行光照补偿的信息和用来确定光照补偿参数的视差矢量时,层间视频编码设备10可不传输表明是否执行光照补偿的信息和视差矢量。
或者,层间视频编码设备10可对表明是否执行光照补偿的信息进行编码并以比特流的形式传输,并且可对用来确定光照补偿参数的视差矢量进行编码并以比特流的形式传输,或者当可基于预先编码的信息来确定视差矢量时,可不传输视差矢量。
通过补偿第一层图像与第二层图像之间的光照差,可减小第二层图像与第一层图像之间的误差,因此可提高层间预测的编码效率。
根据各种实施方式的层间视频编码设备10可包括中央处理器(未示出),所述中央处理器用于控制第一层编码器12、第二层编码器14、相邻样本确定器16和光照补偿参数确定器18中的全部。或者,第一层编码器12、第二层编码器14、相邻样本确定器16和光照补偿参数确定器18可由独立的处理器(未示出)控制,并且处理器可彼此协同操作,以控制层间视频编码设备10。或者,第一层编码器12、第二层编码器14、相邻样本确定器16和光照补偿参数确定器18可由层间视频编码设备10的外部处理器(未示出)控制。
层间视频编码设备10可包括一个或多个数据存储设备(未示出),所述数据存储设备用于存储第一层编码器12、第二层编码器14、相邻样本确定器16和光照补偿参数确定器18的输入和输出数据。层间视频编码设备10可包括用于控制数据存储设备的数据输入和输出的存储器控制器(未示出)。
为了输出视频编码结果,层间视频编码设备10可与安装在层间视频编码设备10中的内部视频编码处理器或外部视频编码处理器协同操作,从而执行包括变换在内的视频编码操作。层间视频编码设备10的内部视频编码处理器可作为单独的处理器来执行视频编码操作。另外,基本视频编码操作可实现为层间视频编码设备10、中央处理设备或包括视频编码处理模块的图形处理设备。
图2A是根据各种实施方式的层间视频解码设备20的框图。
根据各种实施方式的层间视频解码设备20包括第一层解码器22和第二层解码器24。第二层解码器24可包括相邻样本确定器26和光照补偿参数确定器28。或者,第二层解码器24还可包括用于确定是否在第二层当前块上执行光照补偿的光照补偿确定器(未示出)。
根据另一实施方式的相邻样本确定器26和光照补偿参数确定器28可位于第二层解码器24的外部。
根据各种实施方式的层间视频解码设备20可经由可伸缩编码方案来接收根据层的比特流。层间视频解码设备20接收的比特流的层的数量不受限制。然而,为便于描述,将描述层间视频解码设备20的第一层解码器22接收第一层流并进行解码以及第二层解码器24接收第二层流并进行解码的实施方式。
例如,基于空间可伸缩性的层间视频解码设备20可接收流,其中具有不同分辨率的图像序列在不同层中编码。第一层流可经过解码以重建具有低分辨率的图像序列,并且第二层流可经过解码以重建具有高分辨率的图像序列。
作为另一示例,多视点视频可根据可伸缩视频编码方案进行解码。当多个层中接收到立体视觉视频流时,第一层流可经过解码以重建左视点图像。除了第一层流之外还有第二层流可进一步进行解码,以重建右视点图像。
或者,当多个层中接收到多视点视频流时,可对第一层流进行解码以重建中部视点图像。除了第一层流之外还有第二层流可进一步被解码,以重建左视点图像。除了第一层流之外还有第三层流可进一步被解码,以重建右视点图像。
作为另一示例,可执行基于时间可伸缩性的可伸缩视频编码方法。第一层流可经过解码以重建基本帧率图像。第二层流可进一步被解码以重建高帧率图像。
此外,当存在至少三个第二层时,可由第一层流重建第一层图像,并且当通过参考重建的第一层图像对第二层流进一步解码时,可进一步重建第二层图像。当通过参考重建的第二层图像对第K层流进一步解码时,可进一步重建第K层图像。
层间视频解码设备20可从第一层流和第二层流中获取第一层图像和第二层图像的编码数据,此外,可进一步获取经由帧间预测生成的运动矢量和经由层间预测生成的预测信息。
例如,层间视频解码设备20可按照层对帧间预测数据进行解码,并且可对多个层之间的层间预测数据进行解码。重建可基于编码单元或预测单元通过运动补偿和层间解码来执行。
可通过针对每个层流参考经由相同层的帧间预测所预测出的重建图像针对当前图像执行运动补偿来重建图像。运动补偿是这样一种操作,其中通过合成使用当前图像的运动矢量和当前图像的残余分量而确定的参考图像来重建当前图像的重建图像。
此外,层间视频解码设备20可参考第一层图像来执行层间解码,以重建层间预测的第二层图像。层间解码指的是下列操作:通过组合被确定用来预测当前图像的另一层参考图像和当前图像的残余来配置当前图像的重建图像。
根据实施方式的层间视频解码设备20可执行层间解码,从而重建通过参考第二层图像而预测出的第三层图像。下文将参考图3描述层间预测结构。
然而,根据各种实施方式的第二层解码器24可对第二层流进行解码,而不必参考第一层图像序列。因此,不应被限制性地解释为:第二层解码器24执行层间预测以对第二层图像序列进行解码。
层间视频解码设备20根据视频的每个图像的块来执行解码。块可以是根据树形结构的编码单元之中的最大编码单元、编码单元、预测单元或变换单元。
第一层解码器22可通过使用第一层图像的解析编码符号对第一层图像进行解码。当层间视频解码设备20接收到基于树形结构的编码单元进行编码的流时,第一层解码器22可根据第一层流的最大编码单元、基于树形结构的编码单元来执行解码。
第一层解码器22可通过按照最大编码单元执行熵解码来获取解码信息和解码数据。第一层解码器22可通过在从流中获取的编码数据上执行反量化和逆变换来重建残余分量。根据另一实施方式的第一层解码器22可直接接收经量化的变换系数的比特流。可通过在经量化的变换系数上执行反量化和逆变换来重建图像的残余分量。
第一层解码器22可经由相同层图像之间的运动补偿通过组合预测图像和残余分量来重建第一层图像。
根据层间预测结构,第二层解码器24可通过使用重建的第一层图像的样本来生成第二层预测图像。第二层解码器24可通过对第二层流进行解码来获取根据层间预测的预测误差。第二层解码器24可通过将第二层预测图像和预测误差相结合来生成重建的第二层图像。
第二层解码器24可通过使用由第一层解码器22解码的第一层参考图像来确定第二层预测图像。根据层间预测结构,第二解码器24可确定将由块(诸如,第二层图像的编码单元或预测单元)参考的第一层图像的块。例如,可确定位于与第二层图像的当前块的位置对应的位置的第一层图像的参考块。第二层解码器24可通过使用与第二层块对应的第一层参考块来确定第二层预测块。
第二层解码器24可使用基于层间预测结构通过使用第一层参考块而确定的第二层预测块作为参考图像,以在第二层原始块上进行层间预测。在这种情况下,第二层解码器24可通过将使用重建的第一层图像确定的第二层预测块的样本值和基于层间预测的残余相结合来重建第二层块。
基于空间可伸缩视频编码,当第一层解码器22已经重建了分辨率不同于第二层图像的第一层图像时,第二层解码器24可插入第一层参考图像,以将其分辨率调整成与原始第二层图像的分辨率相同。插入的第一层参考图像可被确定为预测的第二层图像,以用于层间预测。
因此,层间视频解码设备20的第一层解码器22可通过对第一层流进行解码来重建第一层图像序列,并且第二层解码器24可通过对第二层流进行解码来重建第二层图像序列。
考虑到视点之间的光照不匹配,层间视频解码设备20的光照补偿参数确定器28可补偿并重建不同视点视频之间的光照差。例如,可从比特流中获取将由第一层解码器22解码的第一视点图像与将由第二层解码器24解码的第二视点图像之间的光照差。由于获取了第一视点图像与第二视点图像之间的光照差,因此,当第二层解码器24对第二视点视频进行解码时,可确定是否执行光照补偿。
根据各种实施方式的层间视频解码设备20可使用光照补偿参数,以用于第一层块与第二层块之间的光照补偿。例如,光照补偿参数可包括比例因子和偏移中的至少一个。
层间视频解码设备20可接收来自比特流的、表明是否执行光照补偿的信息,并且确定是否在第二层当前块上执行光照补偿。或者,层间视频解码设备20可根据其他类型的编码信息(例如,当前块的分区类型信息)来确定是否执行光照补偿。
具体而言,第二层解码器24的相邻样本确定器26可确定第一层图像的参考位置,并且基于参考位置来确定第一层参考块的相邻样本值。表示层之间的视点差异的视差矢量可用来确定与第二层当前块对应的第一层参考块。视差矢量可以以比特流的形式传输或者由其他类型的编码信息推导出。
视差矢量可表示与第二层当前块的位置对应的第一层图像的参考位置。第二层当前块的位置可以是作为基础位置的当前块的左上角样本的位置。第一层图像的参考位置可以是第一层参考块的左上角样本的位置。
相邻样本确定器26可基于参考位置来确定相邻样本位置。例如,相邻样本位置可包括与第一层参考块相邻的顶部样本位置和左侧样本位置,并且基于参考位置进行确定。具体而言,相邻样本位置可以是与参考位置间隔开预定偏移的位置。
第二层解码器24的光照补偿参数确定器28可基于相邻样本位置是否有效来确定相邻样本值,并且基于所确定的相邻样本值来确定第二层当前块的光照补偿参数。相邻样本位置有效这一事实可意味着相邻样本位置设在第一层图像内。下文将参考图4详细描述确定光照补偿参数的方法。
在这种情况下,当参考块的相邻样本位置位于第一层图像的边界外部时,可不存在参考块的相邻样本值。因此,编码效率可能降低。此外,用于编码的计算量可能增加,以确定相邻样本位置是否有效。
因此,当基于第一层参考位置的相邻样本位置位于第一层图像的边界外部时,根据实施方式的层间视频解码设备20可基于第一层图像的边界位置来改变相邻样本位置,并且通过使用第一层图像的边界的样本值来确定第二层当前块的光照补偿参数。
通过使用第一层图像的边界的样本值,层间视频解码设备20不需要检查相邻样本值的有效性,并且可获取更准确的样本值,从而提高编码效率。例如,层间视频解码设备20可不检查第一层的相邻样本值的有效性,并且可基于第二层当前块的相邻样本值是否有效来执行光照补偿。
现在将参考图2B详细描述用于确定光照补偿参数的层间视频解码设备20的操作。
图2B是根据各种实施方式的层间视频解码方法的流程图。
在操作21中,层间视频解码设备20可对第一层图像进行解码。层间视频解码设备20可接收第一层比特流并且对第一层图像进行解码。
在操作23中,层间视频解码设备20可确定第一层图像中的、与第二层当前块的位置对应的参考位置。
层间视频解码设备20可获取并使用表示第一层参考块的第二层当前块的视差矢量。视差矢量可由当前块的相邻块推导出。或者,可从比特流中获取视差矢量。
层间视频解码设备20可通过使用视差矢量来确定第一层图像中的、与第二层当前块的位置对应的参考位置。第一层图像的参考位置可以是与第二层当前块对应的第一层参考块的左上角样本的位置。
由于视差矢量可具有分数像素精度,例如,四分之一像素或半像素精度,因此,由第二层当前块的视差矢量表示的第一层图像的位置可以是子像素位置。子像素位置可以是不同于整数像素位置的像素位置。
当视差矢量表示子像素位置时,层间视频解码设备20可将与子像素位置相邻的整数像素位置确定为参考位置,以降低计算复杂性。或者,当视差矢量表示子像素位置时,层间视频解码设备20可将子像素位置确定为参考位置,以提高光照补偿参数的精度,因此提高编码效率。下文将参考图6A到图7B详细描述确定参考位置的过程。
层间视频解码设备20可基于所确定的参考位置来确定第一层参考块。例如,参考位置可以是第一层参考块的左上角的位置。
在操作25中,当参考位置的相邻样本位置位于第一层图像的边界外部时,层间视频解码设备20可通过使用第一层图像的边界的样本值来确定相邻样本值。
具体而言,层间视频解码设备20可基于参考位置来确定第一层相邻样本位置。例如,相邻样本位置可被确定为与参考位置间隔开预定偏移的位置。
层间视频解码设备20可确定所确定的相邻样本位置是否位于第一层图像的边界外部。例如,层间视频解码设备20可通过将相邻样本位置与第一层图像的边界位置进行比较来确定相邻样本位置是否位于第一层图像的边界外部。层间视频解码设备20可将相邻样本位置的第一分量值与第一层图像的左边界和右边界进行比较,并且将相邻样本位置的第二分量值与第一层图像的顶部边界和底部边界进行比较。第一分量值可以是x分量值,并且第二分量值可以是y分量值。
当相邻样本位置位于第一层图像的边界外部时,层间视频解码设备20可通过使用第一层图像的边界的样本值来确定相邻样本值。例如,层间视频解码设备20可基于第一层图像的边界位置来改变相邻样本位置,并且相邻样本值可以是第一层图像的边界的样本值。
例如,层间视频解码设备20可基于第一层图像的边界通过裁剪相邻样本位置来确定相邻样本值。例如,当相邻样本位置的第一分量值位于第一层图像的左边界或右边界外部时,层间视频解码设备20可将相邻样本值改成第一层图像的左边界或右边界的样本值。或者,当相邻样本位置的第二分量值位于第一层图像的顶部边界或底部边界外部时,层间视频解码设备20可将相邻样本值改成第一层图像的顶部边界或底部边界的样本值。第一分量值可以是水平分量值,并且第二分量值可以是竖直分量值。
或者,层间视频解码设备20可通过使用第一层图像的边界的样本值填补参考位置的相邻样本值来确定相邻样本值。
层间视频解码设备20可确定包括所确定的相邻样本值的第一层光照补偿样本列表。
在操作27中,层间视频解码设备20可基于所确定的相邻样本值来确定第二层当前块的光照补偿参数。光照补偿参数可包括比例因子和偏移中的至少一个。
层间视频解码设备20可通过将所确定的第一层参考块的相邻样本值与第二层当前块的相邻样本值进行比较来确定光照补偿参数。例如,层间视频解码设备20可通过将第一层光照补偿样本列表与第二层光照补偿样本列表进行比较来确定光照补偿参数。下文将参考图4详细描述确定光照补偿参数的方法。
如上文所述,层间视频解码设备20可对进行光照补偿的第二层块进行解码,所述第二层块的光照值基于所确定的光照补偿参数进行补偿。
根据各种实施方式的层间视频解码设备20可包括中央处理器(未示出),所述中央处理器用于控制第一层解码器22、第二层解码器24、相邻样本确定器26和光照补偿参数确定器28中的全部。或者,第一层解码器22、第二层解码器24、相邻样本确定器26和光照补偿参数确定器28可由独立的处理器(未示出)控制,并且处理器可彼此协同操作,以控制层间视频解码设备20。或者,第一层解码器22、第二层解码器24、相邻样本确定器26和光照补偿参数确定器28可由层间视频解码设备20的外部处理器(未示出)控制。
层间视频解码设备20可包括一个或多个数据存储设备(未示出),所述数据存储设备用于存储第一层解码器22、第二层解码器24、相邻样本确定器26和光照补偿参数确定器28的输入和输出数据。层间视频解码设备20可包括用于控制数据存储设备的数据输入和输出的存储器控制器(未示出)。
为了对视频进行解码和重建,层间视频解码设备20可与安装在层间视频解码设备20中的内部视频解码处理器或外部视频解码处理器协同操作,从而执行包括逆变换在内的视频解码操作。层间视频解码设备20的内部视频解码处理器可包括层间视频解码设备20中包括的独立处理器或视频解码模块、中央处理单元或者图形处理单元,以执行基本视频解码操作。
参考图2A和图2B,由于层间视频解码设备20按照一定类型的块或截片补偿不同层图像或者不同视点之间的光照差,以对第二层图像进行解码,因此,重建的第一层图像和重建的第二层图像可具有均匀的光照值。参考图1A和图1B,由于层间视频编码设备10按照一定类型的块或截片补偿不同层图像之间的光照差,因此,可减少预测的图像与原始图像之间的残余。因此,可提高编码效率。
此外,可基于第一层图像的边界通过更准确地确定用来推导光照补偿参数的第一层相邻样本值来进一步提高编码效率。
图3示出根据实施方式的层间预测结构。
根据实施方式的层间视频编码设备10可基于多视点视频预测结构的播放顺序30对基本视点图像、左视点图像和右视点图像进行预测编码。
根据依据相关技术的多视点视频预测结构的播放顺序30,相同视点的图像布置在水平方向上。因此,由“左”表示的左视点图像在水平方向上布置成行,由“中部”表示的基本视点图像在水平方向上布置成行,并且由“右”表示的右视点图像在水平方向上布置成行。与左/右视点图像相比,基本视点图像可以是中部视点图像。
此外,具有相同图片序列号(POC)顺序的图像布置在竖直方向上。图像的POC顺序表示形成视频的图像的播放顺序。多视点视频预测结构的播放顺序30中表示的“POC X”表明对应列中的图像的相对播放顺序,其中在X的值较低时,播放顺序在前,而当X的值较高时,播放顺序在后。
因此,根据依据相关技术的多视点视频预测结构的播放顺序30,由“左”表示的左视点图像根据POC顺序(播放顺序)布置在水平方向上,由“中部”表示的基本视点图像根据POC顺序(播放顺序)布置在水平方向上,并且由“右”表示的右视点图像根据POC顺序(播放顺序)布置在水平方向上。此外,与基本视点图像位于相同列上的左视点图像和右视点图像具有不同视点,但具有相同POC顺序(播放顺序)。
四个连续图像根据视点形成一个图片组(GOP)。每个GOP包括连续锚图片(anchor picture)之间的图像,和一个锚图片(关键图片)。
锚图片是随机访问点,并且当播放视频的同时从根据播放顺序(即,POC顺序)布置的图像中任意选择播放位置时,播放根据POC顺序最靠近播放位置的锚图片。基础层图像包括基础层锚图片31、32、33、34和35,左视点图像包括左视点锚图片131、132、133、134和135,并且右视点图像包括右视点锚图片231、232、233、234和235。
多视点图像可根据GOP顺序进行播放和预测(重建)。首先,根据多视点视频预测结构的播放顺序30,可播放GOP 0中包括的图像,随后根据视点,可播放GOP 1中包括的图像。换言之,可按GOP 0、GOP 1、GOP 2和GOP 3的顺序播放每个GOP中包括的图像。此外,根据多视点视频预测结构的编码顺序,可预测(重建)GOP 0中包括的图像,随后根据视点,可预测(重建)GOP 1中包括的图像。换言之,可按GOP 0、GOP 1、GOP 2和GOP 3的顺序来预测(重建)每个GOP中包括的图像。
根据多视点视频预测结构的播放顺序30,在图像上执行视点间预测(层间预测)和帧间预测。在多视点视频预测结构中,箭头开始的图像是参考图像,并且箭头终止的图像是使用参考图像预测的图像。
基本视点图像的预测结果可被编码,随后以基本视点图像流的形式输出,并且附加视点图像的预测结果可被编码,随后以层比特流的形式输出。此外,左视点图像的预测编码结果可输出为第一层比特流,并且右视点图像的预测编码结果可输出为第二层比特流。
只在基本视点图像上执行帧间预测。换言之,I图片类型的基本层锚图片31、32、33、34和35没有参考其他图像,而其余的、B和b图片类型图像是通过参考其他基本视点图像来预测的。B图片类型的图像是通过参考根据POC顺序在B图片类型的图像前面的I图片类型的锚图片和下一I图片类型的锚图片来预测的。b图片类型的图像是通过参考根据POC顺序在b图片类型的图像前面的I类型的锚图片和下一B图片类型的图像来预测的,或者通过参考根据POC顺序在b图片类型的图像前面的B图片类型的图像和下一I图片类型的锚图片来预测的。
在左视点图像和右视点图像中的每个图像上执行参考不同视点图像的视点间预测(层间预测)和参考相同视点图像的帧间预测。
通过分别参考具有相同POC顺序的基本视点锚图片31、32、33、34和35,可在左视点锚图片131、132、133、134和135上执行视点间预测(层间预测)。通过分别参考具有相同POC顺序的基本视点锚图片31、32、33、34和35或者左视点锚图片131、132、133、134和135,可在右视点锚图片231、232、233、234和235上执行视点间预测。此外,通过参考具有相同POC的其他视点图像,可在除了左视点图像131、132、133、134和135及右视点锚图片231、232、233、234和235外的其余图像上执行视点间预测(层间预测)。
左视点图像和右视点图像之中的、除了锚图片131、132、133、134、135、231、232、233、234和235外的其余图像通过参考相同视点图像来预测。
然而,可不通过参考在相同视点的附加视点图像之中播放顺序在前的锚图片来预测左视点图像和右视点图像中的每个图像。换言之,为了在当前左视点图像上执行帧间预测,可参考排除按播放顺序在当前左视点图像前面的左视点锚图片的左视点图像。同样地,为了在当前右视点图像上执行帧间预测,可参考排除按播放顺序在当前右视点图像前面的右视点锚图片的右视点图像。
此外,为了在当前左视点图像上执行帧间预测,可通过参考属于当前GOP但在当前左视点图像之前重建的左视点图像来执行预测,而不是参考属于当前左视点图像的、在当前GOP之前的GOP的左视点图像。这同样适用于右视点图像。
根据实施方式的层间视频解码设备20可根据图3的多视点视频预测结构的播放顺序30来重建基本视点图像、左视点图像和右视点图像。
左视点图像可经由参考基本视点图像的视点间视差补偿和参考左视点图像的图像间运动补偿来重建。右视点图像可经由参考基本视点图像和左视点图像的视点间视差补偿和参考右视点图像的图像间运动补偿来重建。可首先针对左视点图像和右视点图像的视差补偿和运动补偿来重建参考图像。
针对左视点图像的图像间运动补偿,可经由参考所重建的左视点参考图像的图像间运动补偿来重建左视点图像。针对右视点图像的图像间运动补偿,可经由参考所重建的右视点参考图像的图像间运动补偿来重建右视点图像。
此外,针对当前左视点图像的图像间运动补偿,可只参考属于当前左视点图像的当前GOP但在当前左视点图像之前重建的左视点图像,而不参考属于当前GOP之前的GOP的左视点图像。这同样适用于右视点图像。
如上文所述,层间视频编码设备10和层间视频解码设备20可基于图像特性来确定是否执行光照补偿。例如,可基于根据率失真(RD)优化确定的块的编码模式、块的预测方向和编码类型来确定是否在块上执行光照补偿。
图4示出根据实施方式的确定光照补偿参数的方法的示例。
根据实施方式的层间视频解码设备20可获取表明是否执行按照编码单元的光照补偿的信息,并且按照每个编码单元的预测单元来确定每个预测方向的每个颜色分量(例如,Y、U或V)的光照补偿参数。在这种情况下,可基于当前块的相邻样本和与当前块对应的另一层的参考块的相邻样本来确定光照补偿参数。换言之,可通过将第一层的参考块的相邻样本与第二层的当前块的相邻样本进行比较来确定光照补偿参数。光照补偿参数可包括比例因子a和偏移b中的至少一个。
在这种情况下,用来推导光照补偿参数的当前块的相邻样本可参考在当前块重建之前就已经重建的当前块的可用相邻样本。因此,在当前块的相邻样本不可用时,可不推导光照补偿参数。换言之,层间视频解码设备20可基于当前块的相邻样本值是否可用而确定是否执行光照补偿。
为了确定光照补偿参数,应找到与第二层当前块40对应的第一层参考块45。在这种情况下,可使用视差矢量。在本文中,视差矢量是表示第二层当前块40与第一层参考块45之间的位置差异的矢量。
例如,图4示出被配置成8×8的块的第二层当前块40和与第二层当前块40对应的第一层参考块45。层间视频解码设备20可基于第二层当前块40的位置41来确定由视差矢量表示的第一层图像的参考位置46。当前块的位置41是当前块40的基础位置并且可以是其左上角的位置,而参考位置46可以是与第二层当前块40对应的第一层参考块45的左上角的位置。
当确定了第一层参考块45时,可通过使用第二层当前块40的相邻样本42和第一层参考块45的相邻样本47来确定光照补偿参数。可通过使用相邻样本42和47中的全部或一部分来确定光照补偿参数。例如,相邻样本42与相邻样本47之间的平均光照差可被确定为偏移,因此,可通过所确定的偏移在当前块40上执行光照补偿。
根据实施方式,考虑到第二层当前块40内的样本与参考块45内的样本之间的光照差类似于当前块40的相邻样本42与参考块45的相邻样本47之间的光照差,层间视频解码设备20可通过使用相邻样本42和47来确定光照补偿参数a和b。换言之,层间视频解码设备20可基于包括第一层参考块45的相邻样本47的第一层光照补偿样本列表和包括第二层当前块40的相邻样本42的第二层光照补偿样本列表来确定光照补偿参数。
由于可通过使用相邻样本42和47来确定a和b,因此,即使在没有接收到光照补偿参数作为句构时,层间视频解码设备20也可计算光照补偿参数。因此,可减少将要传输的数据。
计算光照补偿参数的方法包括线性回归方案、基于差的均值的预测(ADP)方案以及基于均值的差的预测(DAP)方案等。当使用线性回归方案时,可通过使用等式1来计算光照补偿参数a和b。
等式1
N可以是块的相邻样本的数量(在图4中,N是16),NBcurr可以是当前块40的相邻样本42的值,并且NBref可以是参考块45的相邻样本47的值。
层间视频解码设备20可通过使用所确定的光照补偿参数在第二层当前块40上执行光照补偿。例如,层间视频解码设备20可通过使用由等式2限定的光照补偿模型来补偿当前块40的每个样本的光照值Pred(x,y)。
等式2
Pred′(x,y)=a×Pred(x,y)+b
如上文所述,由于在层间预测结构中预测层之间的残余,因此,用于预测层之间的光照差的编码操作可增加计算量。具体而言,将每个像素的光照值乘以比例因子a的操作需要计算机的很多时钟,因此在执行光照补偿时可产生负载。
因此,根据实施方式的层间视频解码设备20可通过考虑诸如当前图像的截片或块的每个预定数据单元的特性之后仅仅添加偏移来执行光照补偿。换言之,只使用偏移的光照补偿可通过使用由等式3限定的光照补偿来执行。
等式3
Pred’(x,y)=Pred(x,y)+b’
层间视频解码设备20可只确定偏移b’。层间视频解码设备20可将通过将偏移b’添加到第二层当前块40的每个样本的光照值Pred(x,y)而获取的值确定为经过光照补偿的第二层当前块40的每个样本的光照值Pred’(x,y)。由于等式3限定的光照补偿模型并不包括乘法操作,而是只包括偏移添加操作,因此,光照补偿所需的计算量可减少。
尽管在图4中,层间视频解码设备20确定光照补偿模型和光照补偿参数,但本领域普通技术人员将理解,上文参考图4描述的方法也适用于层间视频编码设备10。
图5A和图5B示出根据各种实施方式的确定第一层图像50的相邻样本位置的过程的示例。
为了确定光照补偿参数,根据各种实施方式的层间视频解码设备20可通过使用视差矢量DV来确定与第二层图像52的当前块53对应的第一层参考块51。视差矢量DV可以以比特流的形式传输或者由其他类型的编码信息推导出。
参考图5A,当参考块51的相邻样本位置54和55位于第一层图像50的边界外部时,可不存在参考块51的相邻样本值。因此,编码效率可能降低。此外,用于编码的计算量可能增加,以检查相邻样本位置54和55的有效性。
因此,当基于第一层参考位置的相邻样本位置54和55位于第一层图像50的边界外部时,根据各种实施方式的层间视频解码设备20可通过使用第一层图像50的边界的样本值来确定相邻样本值。例如,相邻样本值可以是第一层图像50的边界的样本值。
通过使用第一层图像50的边界的样本值,层间视频解码设备20不需要检查相邻样本值的有效性,并且可获取更准确的样本值,从而提高编码效率。例如,层间视频解码设备20可不检查第一层的相邻样本值的有效性,并且可基于第二层当前块53的相邻样本值是否有效来执行光照补偿。
参考图5B,示出由层间视频解码设备20确定相邻样本值的过程。
当基于第一层参考位置的相邻样本位置54和55位于第一层图像50的边界外部时,根据各种实施方式的层间视频解码设备20可通过使用第一层图像50的边界的样本值来确定相邻样本值。
在图5B中,当第一层相邻样本位置54和55位于第一层图像50的边界外部时,层间视频解码设备20可基于第一层图像50的边界位置56和57通过改变相邻样本位置54和55来确定相邻样本值。换言之,层间视频解码设备20可基于第一层图像50的边界通过裁剪参考位置的相邻样本位置54和55来确定相邻样本值。
具体而言,层间视频解码设备20可将相邻样本位置54和55的第一分量值与第一层图像50的左边界和右边界进行比较,并且将相邻样本位置54和55的第二分量值与第一层图像50的顶部边界和底部边界进行比较。第一分量值可以是x分量值,并且第二分量值可以是y分量值。
当相邻样本位置54和55位于第一层图像50的左边界或右边界外部时,层间视频解码设备20可通过使用第一层图像50的左边界或右边界的样本值来确定相邻样本值。当相邻样本位置54和55位于第一层图像50的顶部边界或底部边界外部时,层间视频解码设备20可通过使用第一层图像50的顶部边界或底部边界的样本值来确定相邻样本值。
例如,在图5B中,由于相邻样本位置54位于第一层图像50的左边界外部,因此,层间视频解码设备20可通过使用第一层图像50的左边界位置56的样本值来确定第一层参考块51的顶部相邻样本值。此外,由于相邻样本位置55位于第一层图像50的左边界外部,因此,层间视频解码设备20可通过使用第一层图像50的左边界位置57的样本值来确定第一层参考块51的左侧相邻样本值。第一层参考块51的顶部相邻样本值可对应于第一层图像50的左边界位置56的样本值,并且第一层参考块51的左侧相邻样本值可以是第一层图像50的左边界位置57的样本值。
类似地,当相邻样本位置54和55位于第一层图像50的右边界外部时,层间视频解码设备20可通过使用右边界的样本值来确定相邻样本值。
此外,当相邻样本位置54和55位于第一层图像50的顶部或底部边界外部时,层间视频解码设备20可通过使用顶部或底部边界的样本值来确定相邻样本值。
具体而言,当相邻样本位置54和55的第一分量值位于第一层图像50的左边界或右边界外部时,层间视频解码设备20可基于第一层图像50的左边界位置或右边界位置来改变相邻样本位置54和55的第一分量值。当相邻样本位置54和55的第二分量值位于第一层图像50的顶部边界或底部边界外部时,层间视频解码设备20可基于第一层图像50的顶部边界位置或底部边界位置来改变相邻样本位置54和55的第二分量值。相邻样本值可以是第一层图像50的左边界位置或右边界位置的样本值,或者第一层图像50的顶部边界位置或底部边界位置的样本值。
如上文参考图5B描述的确定第一层相邻样本值的方法可表示为下列伪代码。
xOff=curNbColFlag?-1:i
yOff=curNbColFlag?i:-1
xP=Clip3(0,(pic_width_in_luma_samples/subWidth)-1,xRefBlkLX+xOff)
yP=Clip3(0,(pic_height_in_luma_samples/subHeight)-1,yRefBlkLX+yOff)
refSampleListLX[numSamples]=refRecSamplesLX[xP][yP]
curSampleList[numSamples++]=curRecSamples[xC+xOff][yC+yOff]
在本文中,curNbColFlag可以是表明相邻样本位置是第一层参考位置的顶部相邻样本位置还是左侧相邻样本位置的信息。此外,availFlagCurLeftCol和availFlagCurAboveRow可以是分别表明第二层当前块的左侧样本值是否有效的信息和表明第二层当前块的顶部样本值是否有效的信息。另外,xRefBlkLX和yRefBlkLX可以分别表示第一层参考位置的x分量和y分量。此外,xRefBlkLX+xOff和yRefBlkLX+yOff可以分别表示基于第一层参考位置的相邻样本位置的x分量和y分量。
相邻样本位置的x分量(xRefBlkLX+xOff)可基于作为最小值的第一层图像的左边界位置(0)和作为最大值的第一层图像的右边界位置((pic_width_in_luma_samples/subWidth)-1)进行裁剪,并且改变成相邻样本位置的新x分量(xP)。相邻样本位置的y分量(yRefBlkLX+yOff)可基于作为最小值的第一层图像的顶部边界位置(0)和作为最大值的第一层图像的右边界位置((pic_height_in_luma_samples/subHeight)-1)进行裁剪,并且改变成相邻样本位置的新y分量(yP)。
在本文中,refRecSamplesLX[xP][yP]可表示重建的第一层图像的相邻样本值。层间视频解码设备20可确定包括第一层图像的相邻样本值的第一层光照补偿样本列表(refSampleListLX)。此外,层间视频解码设备20可确定包括第二层图像的相邻样本值的第二层光照补偿样本列表(curSampleList)。
或者,层间视频解码设备20可通过使用第一层图像的边界的样本值填补参考位置的相邻样本值来确定相邻样本值。
由于层间视频解码设备20通过使用所确定的第一层参考块51的相邻样本值来确定光照补偿参数,因此,可以预测更准确的相邻样本值,因而可提高编码效率。
尽管在图5A和图5B中层间视频解码设备20确定用来推导光照补偿的第一层相邻样本值,但本领域普通技术人员将理解,上文参考图5A和图5B描述的方法也适用于层间视频编码设备10。
图6A到图6C示出根据各种实施方式的确定参考位置以确定第一层相邻样本值的方法的示例。
根据各种实施方式的层间视频解码设备20可使用表示层之间的视点差异的视差矢量来确定与第二层当前块对应的第一层参考块。视差矢量可以以比特流的形式传输或者由其他类型的编码信息推导出。
由于视差矢量可具有分数像素精度,例如,四分之一像素或半像素精度,因此,由第二层当前块的视差矢量表示的第一层图像的位置可以是子像素位置。子像素位置可以是不同于整数像素位置的像素位置。
当视差矢量表示子像素位置时,与子像素位置相邻的整数像素位置可以是第一层图像的参考位置,以降低计算的复杂性。
例如,图6A到图6C示出根据实施方式确定由视差矢量表示的相邻整数像素的示例。
在图6A到图6C中,大写字母A、B、C和D表示整数像素位置,并且小写字母a到o表示子像素位置。
参考图6A,根据实施方式的层间视频解码设备20可将包括由第二层当前块的基础位置处的视差矢量表示的第一层图像的位置的1×1的块的整数像素位置确定为第一层参考位置。
例如,当视差矢量表示左上角区域60的子像素位置a、b、c、d、e、f、g、h、i、j、k、l、m、n或o时,第一层参考位置可以是整数像素位置A。
如上文参考图6A描述的通过使用由当前块的基础位置处的视差矢量表示的第一层图像的位置来确定参考位置的方法可表示为下列伪代码。
xRLX=xC+(mvLX[0]>>(2+(cIdx?1:0)))
yRLX=yC+(mvLX[1]>>(2+(cIdx?1:0)))
在上述伪代码中,mvLX[0]和mvLX[1]可表示视差矢量的x分量和y分量,(xC,yC)可表示当前块的位置坐标,以及cIdx在值为0时可表示Y分量或深度图、在值为1时可表示U分量,并且在值为2时可表示V分量。亮度块和色度块具有不同的尺寸,因此可具有整数像素之间的不同距离。因此,当视差矢量表示子像素时,确定参考位置的方法可基于条件句“cIdx?1:0”表示亮度块还是色度块而不同。
因此,可基于由上述伪代码示出的预定移位操作来获取与当前块位置(xC,yC)对应的参考块位置(xRLX,yRLX)。在本文中,当前块位置(xC,yC)和参考块位置(xRLX,yRLX)中的每个可以是块的左上角的坐标值。然而,当前块位置(xC,yC)和参考块位置(xRLX,yRLX)中的每个不限于此,并且可以是块的中心像素的坐标值。
作为另一示例,参考图6B,根据实施方式的层间视频解码设备20可通过使用与由当前块的基础位置处的视差矢量表示的第一层图像的位置最靠近的整数像素位置来确定第一层参考位置。第一层参考位置可以是与由视差矢量表示的第一层图像的位置最靠近的整数像素位置。
例如,当视差矢量表示左上角区域61的子像素位置a、d或e时,整数像素位置A可以是第一层参考位置。
同样,当视差矢量表示右上角区域62的子像素位置b、c、f或g时,整数像素位置B可以是参考位置。当视差矢量表示左下角区域63的子像素位置l、m或n时,整数像素位置C可以是参考位置。当视差矢量表示右下角区域64的子像素位置j、k、n或o时,整数像素位置D可以是参考位置。或者,当视差矢量表示整数像素位置时,整数像素位置可被确定为第一层参考位置。
如上文参考图6B描述的通过使用由当前块的基础像素41处的视差矢量表示的位置来确定第一层参考位置的方法可表示为下列伪代码。
xRLX=xC+((mvLX[0]+(cIdx?4:2))>>(2+(cIdx?1:0)))
yRLX=yC+((mvLX[1]+(cIdx?4:2))>>(2+(cIdx?1:0)))
上述伪代码可更改成如下所示。
xRLX=xC+((mvLX[0]+2+(cIdx?2:0))>>(2+(cIdx?1:0)))
yRLX=yC+((mvLX[1]+2+(cIdx?2:0))>>(2+(cIdx?1:0)))
作为另一示例,参考图6C,当视差矢量表示左上角区域65的子像素位置a、b、d、e、f、h、i或j时,根据实施方式的层间视频解码设备20可通过使用整数像素位置A来确定第一层参考位置。
同样,当视差矢量表示右上角区域66的子像素位置c、g或k时,整数像素位置B可被确定为参考位置。当视差矢量表示左下角区域67的子像素位置l、m或n时,整数像素位置C可被确定为参考位置。当视差矢量表示右下角区域68的子像素位置o时,整数像素位置D可被确定为参考位置。
当视差矢量表示预定子像素时确定的整数像素位置不限于图6A到图6C的方法,并且可通过使用各种方法进行确定。
层间视频解码设备20可基于所确定的第一层参考位置来确定第一层参考块的相邻样本位置、基于相邻样本位置来确定相邻样本值,以及确定包括相邻样本值的第一层光照补偿样本列表。
尽管在图6A到图6C中,层间视频解码设备20确定第一层参考位置,但本领域普通技术人员将理解,上文参考图6A到图6C描述的方法也适用于层间视频编码设备10。
图7A到图7C示出根据各种实施方式的确定参考位置以确定第一层相邻样本值的方法的示例。
图7A示出根据实施方式的以整数像素为单位确定第一层相邻样本位置的过程,并且图7B示出根据实施方式的以子像素为单位确定第一层相邻样本位置的过程。
在图7A中,当视差矢量表示子像素位置时,层间视频编码设备10可通过使用与子像素位置相邻的整数像素位置来确定第一层参考位置,以降低计算复杂性。换言之,第一层参考位置可以是与视差矢量表示的子像素相邻的整数像素的位置。
参考图7A,示出第一层图像的参考块71。参考块71可以是4×4的块。层间视频解码设备20可将具有与第二层当前块的视差矢量所表示的位置对应的左上角位置的块确定为参考块71。
在这种情况下,层间视频解码设备20可将基于视差矢量所表示的位置的整数像素位置确定为参考位置73,并且基于参考位置73来确定第一层相邻像素位置。
换言之,当视差矢量所表示的位置是子像素位置时,层间视频解码设备20可将与子像素位置最靠近的整数像素位置确定为参考位置73。这个原理可以与上文参考图6B描述的方法相同。或者,根据上文参考图6A或图6C描述的方法,层间视频解码设备20可将基于视差矢量所表示的位置的整数像素位置确定为参考位置73。
第一层相邻像素位置可以是整数像素位置,它的x分量值或y分量值比参考位置73的分量值小1。在这种情况下,第一层相邻像素位置可以不是与第一层参考块71的顶部或左侧最靠近的整数像素位置。
根据另一实施方式,在图7B中,当视差矢量表示子像素位置时,层间视频解码设备20可通过使用由视差矢量表示的子像素位置来确定参考位置,以提高光照补偿参数的精度,因此提高编码效率。换言之,第一层参考位置可以是由视差矢量表示的子像素位置。
参考图7B,示出第一层图像的参考块75。参考块75可以是4×4的块。层间视频解码设备20可将具有与第二层当前块的视差矢量所表示的位置对应的左上角位置的块确定为参考块75。
换言之,即使在视差矢量表示子像素位置时,与第二层当前块对应的第一层参考块被确定为具有与子像素位置对应的左上角位置的块,第一层相邻像素位置也可基于子像素位置进行确定,因此,可提高光照补偿参数的精度。
层间视频解码设备20可将视差矢量表示的位置确定为参考位置77,并且基于参考位置77来确定第一层相邻像素位置。换言之,当视差矢量所表示的位置是子像素位置时,层间视频解码设备20可将子像素位置确定为参考位置77。
第一层相邻像素位置可以是子像素位置,它的x分量值或y分量值比参考位置77的分量值小1。
图7C示出根据各种实施方式确定参考位置以确定第一层相邻样本值的方法的示例。
当第二层当前块的视差矢量表示的位置是子像素位置时,根据各种实施方式的层间视频解码设备20可将子像素位置确定为参考位置,并且基于参考位置来确定第一层相邻样本位置。在这种情况下,第一层相邻样本位置可以是子像素位置。
参考图7C,当视差矢量表示的参考位置是子像素位置时,根据各种实施方式的层间视频解码设备20可通过使用如下列伪代码所示的整数坐标(xRLX,yRLX)和分数坐标(xFrac,yFrac)来表示参考位置。
xRLX=xC+((mvLX[0])>>(2+(cIdx?1:0)))
yRLX=yC+((mvLX[1])>>(2+(cIdx?1:0)))
xFrac=mvLX[0]&(cIdx?7:3)
yFrac=mvLX[1]&(cIdx?7:3)
在上述伪代码中,mvLX[0]和mvLX[1]可表示视差矢量的x分量和y分量,(xC,yC)可表示当前块的位置坐标,以及cIdx在值为0时可表示Y分量或深度图、在值为1时可表示U分量,并且在值为2时可表示V分量。亮度块和色度块具有不同的尺寸,因此可具有整数像素之间的不同距离。因此,当视差矢量表示子像素时,确定参考位置的方法可基于条件句“cIdx?1:0”表示亮度块还是色度块而不同。
参考图7C,示出与第一层参考位置相邻的整数像素样本A、B、C和D。层间视频解码设备20可基于视差矢量表示的参考位置、通过使用参考位置的整数坐标(xRLX,yRLX)和分数坐标(xFrac,yFrac)以及与参考位置相邻的整数像素样本A、B、C和D来确定第一层相邻样本值(refSample)。第一层相邻样本值(refSample)可计算成如下列伪代码所示。
refSample=((w-xFrac)*(w-yFrac)*refSampleList[4*i]+xFrac*(w-yFrac)*refSampleList[4*i+1]+(w-xFrac)*yFrac*refSampleList[4*i+2]+xFrac*yFrac*refSampleList[4*i+3]+(cIdx==0?8:32))>>(cIdx==0?4:6)
在上述伪代码中,w表示基于子像素单元的1×1的块的尺寸,并且当cIdx的值为0时可具有值4,而当cIdx的值不为0时可具有值8。此外,cIdx在值为0时可表示Y分量或深度图、在值为1时可表示U分量,并且在值为2时可表示V分量。此外,i可具有0到(光照补偿样本列表中包括的样本数量/2)-1范围内的值。另外,refSampleList[4*i]、refSampleList[4*i+1]、refSampleList[4*i+2]和refSampleList[4*i+3]可以分别是位置A、B、C和D的样本值。
当视差矢量表示子像素位置时,层间视频解码设备20可将子像素位置确定为参考位置,并且使用基于参考位置确定的相邻样本值,从而提高光照补偿参数的精度并且提高编码效率。
尽管在图7A到图7C中,层间视频解码设备20确定第一层参考位置,但本领域普通技术人员将理解,上文参考图7A到图7C描述的方法也适用于层间视频编码设备10。
如上文所述,根据实施方式的层间视频编码设备10和根据实施方式的层间视频解码设备20可将视频数据的块分割成具有树形结构的编码单元,并且编码单元、预测单元和变换单元可用于编码单元的层间预测或帧间预测。在下文中,将参考图8到图20描述根据实施方式的基于具有树形结构的编码单元和变换单元的视频编码方法、视频编码设备、视频解码方法和视频解码设备。
原则上,在针对多层视频的编码和解码过程期间,分别执行针对第一层图像的编码和解码过程与针对第二层图像的编码和解码过程。换言之,当在多层视频上执行层间预测时,可手动参考单层视频的编码和解码结果,但根据单层视频执行不同的编码和解码过程。
因此,由于为便于描述,下文参考图8到图20描述的基于具有树形结构的编码单元的视频编码和解码过程是用于处理单层视频的视频编码和解码过程,所以只执行帧间预测和运动补偿。然而,如上文参考图1A到图7B所述,为了对视频流进行编码和解码,在基础层图像和第二层图像上执行层间预测和补偿。
因此,为了让根据实施方式的层间视频编码设备10的编码器12基于具有树形结构的编码单元对多层视频进行编码,层间视频编码设备10可包括与多层视频的层的数量一样多的图8的视频编码设备100,从而根据每个单层视频来执行视频编码,进而控制每个视频编码设备100对分配的单层视频进行编码。此外,层间视频编码设备10可通过使用每个视频编码设备100的各个单一视角的编码结果来执行视点间预测。因此,层间视频编码设备10的编码器12可生成基本视点视频流和第二层视频流,其包括根据层的编码结果。
类似地,为了让根据实施方式的层间视频解码设备20的解码器24基于具有树形结构的编码单元对多层视频进行解码,层间视频解码设备20可包括与多层视频的层的数量一样多的图9的视频解码设备200,从而根据层来对所接收的第一层视频流和所接收的第二层视频流执行视频解码,进而控制每个视频解码设备200对分配的单层视频进行解码。此外,层间视频解码设备20可通过使用每个视频解码设备200的各个单层的解码结果来执行层间补偿。因此,层间视频解码设备20的解码器24可生成根据层来重建的第一层图像和第二层图像。
图8是根据本公开的实施方式的基于根据树形结构的编码单元的视频编码设备100的框图。
根据实施方式的基于根据树形结构的编码单元的、涉及视频预测的视频编码设备100包括最大编码单元分割器110、编码单元确定器120和输出单元130。在下文中,为便于描述,基于根据树形结构的编码单元的、涉及视频预测的视频编码设备100将简称为“视频编码设备100”。
编码单元确定器120可基于最大编码单元来分割当前图片,所述最大编码单元是具有图像的当前图片的最大尺寸的编码单元。如果当前图片大于最大编码单元,那么当前图片的图像数据可被分割成至少一个最大编码单元。根据实施方式的最大编码单元可以是具有32×32、64×64、128×128、256×256等尺寸的数据单元,其中数据单元的形状是具有2的平方的宽度和长度的正方形。
根据实施方式的编码单元的特征可以是最大尺寸和深度。深度表示编码单元从最大编码单元空间分割的次数,并且随着深度加深,根据深度的较深编码单元可从最大编码单元分割到最小编码单元。最大编码单元的深度是最大深度,并且最小编码单元的深度是最小深度。由于对应于每个深度的编码单元的尺寸随着最大编码单元的深度加深而减小,因此,对应于较浅深度的编码单元可包括对应于较深深度的多个编码单元。
如上文所述,当前图片的图像数据根据编码单元的最大尺寸分割成最大编码单元,并且最大编码单元中的每个可包括根据深度分割的较深编码单元。由于根据实施方式的最大编码单元根据深度进行分割,因此,最大编码单元中包括的空间域的图像数据可根据深度进行分层分类。
限制最大编码单元的高度和宽度进行分层分割的总次数的编码单元的最大深度和最大尺寸可以预先确定。
编码单元确定器120对通过根据深度分割最大编码单元的区域而获得的至少一个分割区域进行编码,并且根据至少一个分割区域确定输出最终编码的图像数据的深度。换言之,通过根据当前图片的最大编码单元对根据深度的较深编码单元中的图像数据进行编码并且选择具有最小编码误差的深度,编码单元确定器120确定最终深度。所确定的最终深度和根据所确定的编码深度的编码图像数据输出到输出单元130。
最大编码单元中的图像数据基于与等于或小于最大深度的至少一个深度对应的较深编码单元进行编码,并且对图像数据进行编码的结果基于较深编码单元中的每个进行比较。在比较较深编码单元的编码误差之后,可选择具有最小编码误差的深度。针对每个最大编码单元,可选择至少一个最终深度。
随着编码单元根据深度进行分层分割,并且随着编码单元的数量增加,最大编码单元的尺寸被分割。此外,即使编码单元对应于一个最大编码单元中的相同深度,也要通过分别测量每个编码单元的图像数据的编码误差来确定是否将对应于相同深度的编码单元中的每个编码单元分割到较深深度。因此,即使在图像数据被包括在一个最大编码单元中时,编码误差也可根据一个最大编码单元中的区域而不同,因此,最终深度可根据图像数据中的区域而不同。因此,在一个最大编码单元中可确定一个或多个最大深度,并且最大编码单元的图像数据可根据至少一个最终深度的编码单元分开。
因此,根据实施方式的编码单元确定器120可确定最大编码单元中包括的具有树形结构的编码单元。根据实施方式的“具有树形结构的编码单元”包括在最大编码单元包括的所有较深编码之中的、与确定为最终深度的深度对应的编码单元。最终深度的编码单元可根据最大编码单元的相同区域中的深度来分层确定,并且可在不同区域中独立确定。类似地,当前区域中的最终深度可独立于另一区域中的最终深度进行确定。
根据实施方式的最大深度是与从最大编码单元到最小编码单元的分割次数相关的索引。根据实施方式的第一最大深度可表示从最大编码单元到最小编码单元的总分割次数。根据实施方式的第二最大深度可表示从最大编码单元到最小编码单元的深度等级的总数。例如,当最大编码单元的深度为0时,最大编码单元被分割一次的编码单元的深度可设置为1,并且最大编码单元被分割两次的编码单元的深度可设置为2。在这种情况下,如果最小编码单元是最大编码单元被分割四次的编码单元,那么存在深度0、1、2、3和4的深度等级,因此,第一最大深度可设置为4,并且第二最大深度可设置为5。
预测编码和变换可根据最大编码单元来执行。预测编码和变换也根据最大编码单元基于根据等于或小于最大深度的深度的较深编码单元来执行。
由于每当最大编码单元根据深度分割时较深编码单元的数量都增加,因此,在随着深度加深而生成的所有较深编码单元上执行包括预测编码和变换在内的编码。为便于描述,现在将基于当前深度的编码单元在最大编码单元中描述预测编码和变换。
根据实施方式的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码,执行诸如预测编码、变换和熵编码的操作,并且同时,可将相同的数据单元用于所有操作或者将不同的数据单元用于每个操作。
例如,视频编码设备100不仅可选择用于对图像数据进行编码的编码单元,而且可选择不同于编码单元的数据单元,从而在编码单元中的图像数据上执行预测编码。
为了在最大编码单元中执行预测编码,可基于根据实施方式的与最终深度对应的编码单元(即,基于不再分割成对应于较深深度的编码单元的编码单元)执行预测编码。在下文中,不再进行分割并且成为用于预测编码的基础单元的编码单元现在将被称为“预测单元”。通过分割预测单元而获得的分区可包括预测单元和通过分割预测单元的高度和宽度中的至少一个而获得的数据单元。分区是编码单元的预测单元被分割的数据单元,并且预测单元可以是与编码单元具有相同尺寸的分区。
例如,当2N×2N(其中N是正整数)的编码单元不再分割并且成为2N×2N的预测单元时,分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。根据实施方式的分区模式的示例可选择性地包括通过对称地分割预测单元的高度或宽度而获得的对称分区、通过不对称地分割预测单元的高度或宽度(诸如1:n或n:1)而获得的分区、通过几何分割预测单元而获得的分区以及具有任意形状的分区。
预测单元的预测模式可以是帧内模式(Intra Mode)、帧间模式(Inter Mode)和跳跃模式(Skip Mode)中的至少一个。例如,帧内模式或帧间模式可在2N×2N、2N×N、N×2N或N×N的分区上执行。此外,跳跃模式可以只在2N×2N的分区上执行。编码在编码单元中的一个预测单元上独立执行,从而选择具有最小编码误差的预测模式。
根据实施方式的视频编码设备100也可不仅基于用于对图像数据进行编码的编码单元而且基于不同于编码单元的数据单元而在编码单元中的图像数据上执行变换。为了在编码单元中执行变换,可基于具有小于或等于编码单元的尺寸的变换单元来执行变换。例如,变换单元可包括用于帧内模式的数据单元和用于帧间模式的变换单元。
根据实施方式,编码单元中的变换单元可按与编码单元根据树形结构进行分割的类似方式递归地分割成更小尺寸的区域。因此,编码单元中的残余数据可根据具有树形结构的变换单元依据变换深度进行分割。
根据实施方式,表明通过分割编码单元的高度和宽度来达到变换单元的分割次数的变换深度也可设置在变换单元中。例如,在2N×2N的当前编码单元中,当变换单元的尺寸是2N×2N时变换深度可为0,当变换单元的尺寸是N×N时变换深度可为1,以及当变换单元的尺寸是N/2×N/2时变换深度可为2。换言之,具有树形结构的变换单元可根据变换深度进行设置。
根据深度的分割信息不仅需要与深度有关的信息,而且需要与预测编码和变换相关的信息。因此,编码单元确定器120不仅确定具有最小编码误差的深度,而且确定将预测单元分割成分区的分区模式、根据预测单元的预测模式以及用于变换的变换单元的尺寸。
下文将参考图9到图19详细描述根据各种实施方式的最大编码单元中的根据树形结构的编码单元以及确定预测单元/分区和变换单元的方法。
编码单元确定器120可通过使用基于拉格朗日乘子的率失真优化(Rate-Distortion Optimization)来测量根据深度的较深编码单元的编码误差。
输出单元130以比特流的形式输出基于由编码单元确定器120确定的至少一个深度进行编码的最大编码单元的图像数据以及根据深度的分割信息。
通过对图像的残余数据进行编码可获得编码的图像数据。
根据深度的分割信息可包括与深度有关的信息、与预测单元中的分区模式有关的信息、与预测模式有关的信息以及与变换单元的分割有关的信息。
与最终深度有关的信息可通过使用根据深度的分割信息进行限定,从而表明是否在较深深度而非当前深度的编码单元上执行编码。如果当前编码单元的当前深度是深度,那么对当前编码单元进行编码,因此,分割信息可限定为不将当前编码单元分割到较深深度。另一方面,如果当前编码单元的当前深度不是该深度,那么在较深深度的编码单元上执行编码,因此,分割信息可限定为分割当前编码单元,以获取较深深度的编码单元。
如果当前深度不是该深度,那么在分割成较深深度的编码单元的编码单元上执行编码。由于较深深度的至少一个编码单元存在于当前深度的一个编码单元中,因此,可在较深深度的每个编码单元上重复执行编码,从而可针对具有相同深度的编码单元递归地执行编码。
由于针对一个最大编码单元确定具有树形结构的编码单元并且针对深度的编码单元确定分割信息,因此,可针对一个最大编码单元确定至少一项分割信息。此外,最大编码单元的图像数据的深度可根据位置而不同,这是因为图像数据根据深度进行分层分割,因此,可针对图像数据来设置深度和分割信息。
因此,根据实施方式的输出单元130可将与编码模式有关的编码信息和对应深度分配到最大编码单元中包括的编码单元、预测单元和最小单元中的至少一个。
根据实施方式的最小单元是通过将构成最深深度的最小编码单元分割成4个而获得的正方形数据单元。或者,根据实施方式的最小单元可以是可被包括在最大编码单元所包括的编码单元、预测单元、分区单元和变换单元的全部中的最大正方形数据单元。
例如,由输出单元130输出的编码信息可分类成根据较深编码单元的编码信息和根据预测单元的编码信息。根据较深编码单元的编码信息可包括与预测模式有关的信息和与分区的尺寸有关的信息。根据预测单元的编码信息可包括与帧间模式的估计方向有关的信息、与帧间模式的参考图像索引有关的信息、与运动矢量有关的信息、与帧内模式的色度分量有关的信息以及与帧内模式的内插法有关的信息。
与根据图片、截片或GOP限定的编码单元的最大尺寸有关的信息以及与最大深度的有关信息可插入到比特流的标头、序列参数集或图像参数集中。
与当前视频准许的变换单元的最大尺寸的有关信息以及与变换单元的最小尺寸有关的信息也可通过比特流的标头、序列参数集或图片参数集输出。输出单元130可对与预测相关的参考信息、预测信息和截片类型信息进行编码并输出这些信息。
在根据最简单实施方式的视频编码设备100中,较深编码单元可以是通过将较浅深度的编码单元(上一层的编码单元)的高度或宽度一分为二所得到的编码单元。换言之,在当前深度的编码单元的尺寸是2N×2N时,较深深度的编码单元的尺寸是N×N。此外,具有2N×2N尺寸的当前编码单元可最大包括四个均具有N×N尺寸的较深深度编码单元。
因此,通过基于最大编码单元的尺寸和考虑到当前图片的特征而确定的最大深度来确定每个最大编码单元的具有最佳形状和最佳尺寸的编码单元,视频编码设备100可形成具有树形结构的编码单元。此外,由于可通过使用各种预测模式和变换中的任一个在每个最大编码单元上执行编码,因此,可根据各种图像尺寸的编码单元的特征来确定最佳编码模式。
因此,如果具有高分辨率或大数据量的图像在传统宏块中编码,那么每个图片的宏块数量过度增加。因此,针对每个宏块生成的压缩信息的数量增加,因而难以传输压缩的信息并且数据压缩效率降低。然而,通过使用根据实施方式的视频编码设备100,图像压缩效率可能增加,这是因为在考虑图像的特征同时调整编码单元,同时考虑图像的尺寸而增大编码单元的最大尺寸。
上文参考图1A描述的层间视频编码设备10可包括与层的数量一样多的视频编码设备100,从而根据多层视频的层对单层图像进行编码。例如,第一层编码器12可包括一个视频编码设备100,并且第二层编码器14可包括与第二层的数量一样多的视频编码设备100。
当视频编码设备100对第一层图像进行编码时,编码单元确定器120可针对每个最大编码单元来确定用于根据具有树形结构的编码单元进行帧间预测的预测单元,并且根据预测单元来执行帧间预测。
即使在视频编码设备100对第二层图像进行编码时,编码单元确定器120也可针对每个最大编码单元来确定具有树形结构的编码单元和预测单元,并且根据预测单元来执行帧间预测。
视频编码设备100可对亮度差进行编码,以补偿第一层图像与第二层图像之间的亮度差。然而,可根据编码单元的编码模式来确定是否执行亮度。例如,可以只在具有2N×2N尺寸的预测单元上执行亮度补偿。
图9是根据各种实施方式的基于根据树形结构的编码单元的视频解码设备200的框图。
根据实施方式的基于具有树形结构的编码单元的、涉及视频预测的视频解码设备200包括接收器210、图像数据与编码信息提取器220以及图像数据解码器230。为便于描述,根据实施方式的基于具有树形结构的编码单元的、涉及视频预测的视频解码设备200将简称为“视频解码设备200”。
根据实施方式,用于视频解码设备200的解码操作的各种术语(诸如,编码单元、深度、预测单元、变换单元和各种分割信息)的定义与参考图8和视频编码设备100描述的那些定义相同。
接收器210接收并解析编码视频的比特流。图像数据与编码信息提取器220从解析的比特流中提取用于每个编码单元的编码图像数据,其中编码单元具有根据每个最大编码单元的树形结构,并且将提取的图像数据输出到图像数据解码器230。图像数据与编码信息提取器220可从与当前图片有关的标头、序列参数集或图片参数集中提取与当前图片的编码单元的最大尺寸有关的信息。
此外,图像数据与编码信息提取器220针对根据每个最大编码单元的具有树形结构的编码单元从解析的比特流中提取最终深度和分割信息。提取的最终深度和分割信息输出到图像数据解码器230。换言之,比特流中的图像数据分割成最大编码单元,使得图像数据解码器230针对每个最大编码单元将图像数据解码。
根据最大编码单元的深度和分割信息可针对至少一项深度信息进行设置,并且分割信息可包括与对应编码单元的分区模式有关的信息、与预测模式有关的信息以及与变换单元的分割有关的信息。此外,根据深度的分割信息可被提取为与深度有关的信息。
由图像数据与编码信息提取器220提取的根据每个最大编码单元的深度和分割信息是被确定当诸如根据实施方式的视频编码设备100等编码器根据每个最大编码单元针对根据深度的每个较深编码单元重复执行编码时会生成最小编码误差的深度和分割信息。因此,视频解码设备200可通过根据生成最小编码误差的编码深度和编码模式对图像数据进行解码来重建图像。
由于根据实施方式,与深度和编码模式有关的编码信息可分配到对应编码单元、预测单元和最小单元之中的预定数据单元,因此,图像数据与编码信息提取器220可根据预定数据单元提取深度和分割信息。如果对应最大编码单元的深度和分割信息根据预定数据单元进行记录,那么可以推断,被分配相同深度和相同分割信息的预定数据单元就是相同最大编码单元中包括的数据单元。
图像数据解码器230可通过基于根据最大编码单元的深度和分割信息将每个最大编码单元中的图像数据解码来重建当前图片。换言之,图像数据解码器230可基于与每个最大编码单元中包括的具有树形结构的编码单元之中的每个编码单元的分区模式、预测模式和变换单元有关的提取信息对编码的图像数据进行解码。解码过程可包括预测和逆变换,所述预测包括帧内预测和运动补偿。
基于与根据深度的编码单元的预测单元的分区模式和预测模式有关的信息,图像数据解码器230可根据每个编码单元的分区和预测模式来执行帧内预测或运动补偿。
此外,图像数据解码器230可读取与用于每个编码单元的根据树形结构的变换单元有关的信息,从而基于每个编码单元的变换单元来执行逆变换,从而针对每个最大编码单元进行逆变换。经由逆变换,可重建编码单元的空间域的像素值。
图像数据解码器230可通过使用根据深度的分割信息来确定当前最大编码单元的深度。如果分割信息表明图像数据不再以当前深度分割,那么当前深度就是深度。因此,图像数据解码器230可通过使用与预测单元的分区模式、预测模式信息和变换单元的尺寸有关的信息来对当前最大编码单元中的编码数据进行解码。
换言之,通过观察分配给编码单元、预测单元和最小单元之中的预定数据单元的编码信息集,可收集含有包括相同分割信息的编码信息的数据单元,并且可将收集的数据单元视作将由图像数据解码器230以相同编码模式解码的一个数据单元。因此,可通过获取与用于每个编码单元的编码模式有关的信息来对当前编码单元进行解码。
上文参考图2A描述的层间视频解码设备20可包括与视角的数量一样多数量的视频解码设备200,从而通过对所接收的第一层图像流和所接收的第二层图像流进行解码来重建第一层图像和第二层图像。
当接收到第一层图像流时,视频解码设备200的图像数据解码器230可将由图像数据与编码信息提取器220从第一层图像流中提取的第一层图像的样本分割成具有树形结构的编码单元。图像数据解码器230可通过根据用于帧间预测的预测单元在通过分割第一层图像的样本而获取的具有树形结构的编码单元上执行运动补偿来重建第一层图像。
当接收到第二层图像流时,视频解码设备200的图像数据解码器230可将由图像数据与编码信息提取器220从第二层图像流中提取的第二层图像的样本分割成具有树形结构的编码单元。图像数据解码器230可通过根据用于帧间预测的预测单元在通过分割第二层图像的样本而获取的编码单元上执行运动补偿来重建第二层图像。
提取器220可从比特流中获取与亮度误差相关的信息,从而补偿第一层图像与第二层图像之间的亮度差。然而,可根据编码单元的编码模式来确定是否执行亮度。例如,可以只在具有2N×2N尺寸的预测单元上执行亮度补偿。
因此,视频解码设备200可获取与在针对每个最大编码单元递归地执行编码时生成最小编码误差的至少一个编码单元有关的信息,并且可使用该信息来对当前图片进行解码。换言之,可对确定是每个最大编码单元中的最佳编码单元的、具有树形结构的编码单元进行解码。
因此,即使图像数据具有高分辨率和大量数据,图像数据仍可通过使用编码单元的尺寸和编码模式来高效解码和重建,所述编码单元的尺寸和编码模式是通过使用从编码器接收的最佳分割信息根据图像数据的特征而自适应地确定的。
图10是用于描述根据各种实施方式的编码单元的概念的示意图。
编码单元的尺寸可由宽度×高度来表示,并且可以是64×64、32×32、16×16和8×8。64×64的编码单元可分割成64×64、64×32、32×64或32×32的分区,并且32×32的编码单元可分割成32×32、32×16、16×32或16×16的分区,16×16的编码单元可分割成16×16、16×8、8×16或8×8的分区,以及8×8的编码单元可分割成8×8、8×4、4×8或4×4的分区。
在视频数据310中,分辨率是1920×1080,编码单元的最大尺寸是64,并且最大深度是2。在视频数据320中,分辨率是1920×1080,编码单元的最大尺寸是64,并且最大深度是3。在视频数据330中,分辨率是352×288,编码单元的最大尺寸是16,并且最大深度是1。图10所示的最大深度是指从最大编码单元到最小编码单元的总分割次数。
如果分辨率较高或数据量较大,那么编码单元的最大尺寸可较大,从而不仅增加编码效率,而且准确反映图像的特征。因此,分辨率比视频数据330高的视频数据310和320的编码单元的最大尺寸可以是64。
由于视频数据310的最大深度是2,因此,视频数据315的编码单元310可包括长轴尺寸为64的最大编码单元,以及长轴尺寸为32和16的编码单元,这是因为通过将最大编码单元分割两次,深度加深两个层。由于视频数据330的最大深度是1,因此,视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元,以及长轴尺寸为8的编码单元,这是因为通过将最大编码单元分割一次,深度加深一层。
由于视频数据320的最大深度是3,因此,视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元,以及长轴尺寸为32、16和8的编码单元,这是因为通过将最大编码单元分割三次,深度加深3个层。随着深度加深,可准确地表达详细信息。
图11是根据各种实施方式的基于编码单元的图像编码器400的框图。
根据实施方式的图像编码器400执行视频编码设备100的编码单元确定器120的操作,以对图像数据进行编码。换言之,帧内预测器420在当前帧405之中按照预测单元在编码单元上以帧内模式执行帧内预测,并且帧间预测器415通过使用当前图像405和由重建图片缓存器410获取的参考图像按照预测单元在编码单元上以帧间模式执行帧间预测。当前图片405可被分割成最大编码单元,随后最大编码单元可相继被编码。此处,可在最大编码单元中的以树形结构分割的编码单元上执行编码。
通过从待编码的当前图像405的数据中减去从帧内预测器420或帧间预测器415中输出的每个模式的编码单元的预测数据,生成残余数据,并且残余数据作为经量化的变换系数通过变换器425和量化器430按照变换单元输出。经量化的变换系数通过反量化器445和逆变换器450而恢复成空间域中的数据。将空间域中的残余数据添加到从帧内预测器420或帧间预测器415中输出的每个模式的编码单元的预测数据,从而恢复成当前图像405的编码单元的空间域中的数据。空间域中的数据经过去块化器455和样本自适应偏移(SAO)执行器460,因而生成恢复的图像。恢复的图像存储在重建图片缓存器410中。存储在重建图片缓存器410中的所恢复的图像可用作另一图像的帧间预测的参考图像。通过变换器425和量化器430获取的经量化的变换系数可通过熵编码器435而输出为比特流440。
为了将根据实施方式的图像编码器400应用于视频编码设备100,图像编码器400的部件(即,帧间预测器415、帧内预测器420、变换器425、量化器430、熵编码器435、反量化器445、逆变换器450、去块化单元455和SAO执行器460)基于每个最大编码单元的具有树形结构的编码单元之中的每个编码单元来执行操作。
具体而言,帧内预测器420和帧间预测器415在考虑当前最大编码单元的最大尺寸和最大深度的同时确定具有树形结构的编码单元之中的每个编码单元的分区和预测模式,并且变换器425可确定是否根据具有树形结构的编码单元之中的每个编码单元中的四叉树来分割变换单元。
图12是根据各种实施方式的基于编码单元的图像解码器500的框图。
熵解码器515对来自比特流505的将被解码的编码图像数据和解码所需的编码信息进行解析。编码图像数据是经量化的变换系数,并且反量化器520和逆变换器525从经量化的变换系数中恢复残余数据。
帧内预测器540根据预测单元以帧内模式在编码单元上执行帧内预测。帧间预测器通过使用由重建图片缓存器530获取的参考图像而根据预测单元在当前图像中以帧内模式在编码单元上执行帧间预测。
通过经由帧内预测器540和帧间预测器535添加每个模式的编码单元的残余数据和预测数据来恢复当前图像的编码单元的空间域中的数据,并且可通过去块化单元545和SAO执行器550将空间域中的数据输出为恢复的图像。此外,可将存储在重建图片缓存器530的所恢复的图像输出为参考图像。
为了对视频解码设备200的图像数据解码器230中的图像数据进行解码,可执行根据实施方式的图像解码器500的熵解码器515之后的操作。
为了将图像解码器500应用于根据实施方式的视频解码设备200,图像解码器500的部件(即,熵解码器515、反量化器520、逆变换器525、帧内预测器540、帧间预测器535、去块化单元545和SAO执行器550)可针对每个最大编码单元基于具有树形结构的编码单元来执行操作。
具体而言,帧内预测器540和帧间预测器535根据具有树形结构的编码单元中的每个来确定分区模式和预测模式,并且逆变换器525可确定是否根据每个编码单元的四叉树来分割变换单元。
图10的编码操作和图11的解码操作分别是单个层中的视频流编码操作和视频流解码操作。因此,当图1A的编码器12对至少两层的视频流进行编码时,图1A的视频编码设备100可包括与层的数量一样多的图像编码器400。类似地,当图2A的解码器24对至少两层的视频流进行解码时,图2A的视频解码设备200可包括与层的数量一样多的图像解码器500。
图13是示出根据各种实施方式的编码单元和分区的示意图。
根据实施方式的视频编码设备100和根据实施方式的视频解码设备200使用分层编码单元,从而考虑图像的特征。编码单元的最大高度、最大宽度和最大深度可根据图像的特征而自适应地确定,或者可根据用户需要而不同地设置。根据深度的较深编码单元的尺寸可根据编码单元的预定最大尺寸进行确定。
在根据实施方式的编码单元的分层结构600中,编码单元的最大高度和最大宽度均是64,并且最大深度是3。在这种情况下,最大深度是指编码单元从最大编码单元分割到最小编码单元的总次数。由于深度沿着根据实施方式的编码单元的分层结构600的竖直轴加深,因此,较深编码单元的高度和宽度均被分割。此外,沿着分层结构600的水平轴示出作为每个较深编码单元的预测编码的基础的预测单元和分区。
换言之,编码单元610是分层结构600中的最大编码单元,其中深度为0并且尺寸(即,高度乘宽度)为64×64。深度沿着竖直轴加深,而且编码单元620的尺寸为32×32且深度为1,编码单元630的尺寸为16×16且深度为2,以及编码单元640的尺寸为8×8且深度为3。尺寸为8×8且深度为3的编码单元640是最小编码单元。
编码单元的预测单元和分区根据每个深度沿着水平轴布置。换言之,如果尺寸为64×64且深度为0的编码单元610是预测单元,那么预测单元可分割成尺寸为64×64的编码单元610中包括的分区,即,尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614,或者尺寸为32×32的分区616。
同样,尺寸为32×32且深度为1的编码单元620的预测单元可分割成尺寸为32×32的编码单元620中包括的分区,即,尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624以及尺寸为16×16的分区626。
同样,尺寸为16×16且深度为2的编码单元630的预测单元可分割成尺寸为16×16的编码单元630中包括的分区,即,编码单元630中包括的尺寸为16×16的分区、尺寸为16×8的分区632、尺寸为8×16的分区634以及尺寸为8×8的分区636。
同样,尺寸为8×8且深度为3的编码单元640的预测单元可分割成尺寸为8×8的编码单元640中包括的分区,即,编码单元640中包括的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644以及尺寸为4×4的分区646。
为了确定最大编码单元610的深度,根据实施方式的视频编码设备100的编码单元确定器120针对最大编码单元610中包括的与每个深度对应的编码单元来执行编码。
包括相同范围和相同尺寸的数据的、根据深度的较深编码单元的数量随着深度加深而增加。例如,需要四个对应于深度2的编码单元来覆盖一个对应于深度1的编码单元中包括的数据。因此,为了将根据深度的相同数据的编码结果进行比较,对应于深度1的编码单元和对应于深度2的四个编码单元均被编码。
为了针对深度之中的当前深度执行编码,可通过沿着分层结构600的水平轴、针对与当前深度对应的编码单元中的每个预测单元执行编码,为当前深度选择最小编码误差。或者,随着深度沿着分层结构600的竖直轴加深,可通过针对每个深度执行编码,根据深度来比较最小编码误差而搜索出最小编码误差。最大编码单元610中具有最小编码误差的深度和分区可被选作最大编码单元610的深度和分区模式。
图14是用于描述根据各种实施方式的编码单元与变换单元之间的关系的示意图。
根据实施方式的视频编码设备100或根据实施方式的视频解码设备200根据每个最大编码单元的、尺寸等于或小于最大编码单元的编码单元对图像进行编码或解码。在编码期间用于变换的变换单元的尺寸可基于不大于对应编码单元的数据单元进行选择。
例如,在根据实施方式的视频编码设备100或根据实施方式的视频解码设备200中,如果编码单元710的尺寸是64×64,那么可通过使用尺寸为32×32的变换单元720来执行变换。
此外,可通过在尺寸为32×32、16×16、8×8和4×4(都小于64×64)的变换单元中的每个上执行变换,从而对尺寸为64×64的编码单元710的数据进行编码,并且随后可选择具有最小编码误差的变换单元。
图15示出根据各种实施方式的多项编码信息。
根据实施方式的视频编码设备100的输出单元130可针对与深度对应的每个编码单元来编码并传输与分区模式有关的信息800、与预测模式有关的信息810和与变换单元的尺寸有关的信息820,以作为分割信息。
信息800表明与通过分割当前编码单元的预测单元而获得的分区的形状的有关信息,其中分区是用于对当前编码单元进行预测编码的数据单元。例如,尺寸为2N×2N的当前编码单元CU_0可分割成下列分区中的任一个:尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。在这种情况下,与当前编码单元的分区类型有关的信息800设置成表示下列中的一个:尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。
信息810表明每个分区的预测模式。例如,信息810可表明在由信息800表明的分区上执行的预测编码的模式,即,帧内模式812、帧间模式814或跳跃模式816。
信息820表明在当前编码单元上执行变换时将依据的变换单元。例如,所述变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或者第二帧间变换单元828。
根据实施方式的视频解码设备200的图像数据与编码信息提取器220可提取并使用信息800、810和820,以根据每个较深编码单元进行解码。
图16是根据各种实施方式的根据深度的较深编码单元的示意图。
分割信息可用来表明深度的变化。分割信息表明当前深度的编码单元是否分割成较深深度的编码单元。
用于对深度为0且尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括下列分区类型的分区:尺寸为2N_0×2N_0的分区模式912、尺寸为2N_0×N_0的分区模式914、尺寸为N_0×2N_0的分区模式916和尺寸为N_0×N_0的分区模式918。图9只示出通过对称地分割预测单元而获取的分区912到918,但分区模式不限于此,并且预测单元的分区可包括不对称分区、具有任意形状的分区和具有几何形状的分区。
根据每个分区模式,在尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区上重复执行预测编码。可在尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区上执行帧内模式和帧间模式的预测编码。只在尺寸为2N_0×2N_0的分区上执行跳跃模式的预测编码。
如果分区模式912、914和916中的一个分区模式的编码误差是最小误差,那么预测单元910可不分割成更深深度。
如果分区模式918中的编码误差是最小误差,那么在操作920中,深度从0变成1从而分割分区模式918,并且在深度为2且尺寸为N_0×N_0的编码单元930上重复执行编码,以搜索最小编码误差。
用于对深度为1且尺寸为2N_1×2N_1(=N_0×N_0)的编码单元930进行预测编码的预测单元940可包括下列分区模式的分区:尺寸为2N_1×2N_1的分区模式942、尺寸为2N_1×N_1的分区模式944、尺寸为N_1×2N_1的分区模式946和尺寸为N_1×N_1的分区模式948。
如果分区模式948的编码误差是最小误差,那么在操作950中,深度从1变成2从而分割分区模式948,并且在深度为2且尺寸为N_2×N_2的编码单元960上重复执行编码,以搜索最小编码误差。
当最大深度为d时,根据深度的较深编码单元可设置到深度对应于d-1时,并且分割信息可设置到深度对应于d-2时。换言之,当在操作970中在对应于深度d-2的编码单元进行分割之后执行编码直到深度为d-1时,用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括下列分区模式的分区:尺寸为2N_(d-1)×2N_(d-1)的分区模式992、尺寸为2N_(d-1)×N_(d-1)的分区模式994、尺寸为N_(d-1)×2N_(d-1)的分区模式996和尺寸为N_(d-1)×N_(d-1)的分区模式998。
可在分区模式之中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区上重复地执行预测编码,以搜索具有最小编码误差的分区模式。
即使在分区模式998具有最小编码误差时,由于最大深度为d,因此,深度为d-1的编码单元CU_(d-1)不再分割到更深深度,并且构成当前最大编码单元900的编码单元的深度被确定为d-1,而且当前最大编码单元900的分区模式可被确定为N_(d-1)×N_(d-1)。此外,由于最大深度为d,因此,不设置深度为d-1的编码单元952的分割信息。
数据单元999可以是当前最大编码单元的“最小单元”。根据实施方式的最小单元可以是通过将具有最深深度的最小编码单元分割成4个而获得的正方形数据单元。通过重复执行编码,根据实施方式的视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度从而确定深度,并且可将对应分区模式和预测模式设置为深度的编码模式。
因此,在所有的深度0、1、……、d-1、d中比较根据深度的最小编码误差,并且可将具有最小编码误差的深度确定为深度。深度、预测单元的分区模式和预测模式可作为分割信息而被编码和传输。此外,由于编码单元从深度0分割到深度,因此,只有深度的分割信息被设置为0,而除该深度之外的深度的分割信息被设置为1。
根据实施方式的视频解码设备200的图像数据与编码信息提取器220可提取并使用与编码单元900的深度和预测单元有关的信息,从而对分区912进行解码。根据实施方式的视频解码设备200可通过使用根据深度的分割信息而将分割信息为0的深度确定为深度,并且将对应深度的分割信息用于解码。
图17、图18和图19是用于描述根据各种实施方式的编码单元、预测单元与变换单元之间的关系的示意图。
编码单元1010是最大编码单元中的由根据实施方式的视频编码设备100确定的、根据深度的具有树形结构的编码单元。预测单元1060是根据深度的编码单元中的每个的预测单元的分区,以及变换单元1070是根据深度的编码单元中的每个的变换单元。
当编码单元1010中的最大编码单元的深度为0时,编码单元1012和1054的深度为1,编码单元1014、1016、1018、1028、1050和1052的深度为2,编码单元1020、1022、1024、1026、1030、1032和1048的深度为3,以及编码单元1040、1042、1044和1046的深度为4。
在预测单元1060中,通过分割编码单元1010中的编码单元获得一些编码单元1014、1016、1022、1032、1048、1050、1052和1054。换言之,编码单元1014、1022、1050和1054的分区模式具有尺寸2N×N,编码单元1016、1048和1052的分区模式具有尺寸N×2N,以及编码单元1032的分区模式具有尺寸N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。
在小于编码单元1052的数据单元中,对变换单元1070中的编码单元1052的图像数据执行变换或逆变换。此外,变换单元1070中的编码单元1014、1016、1022、1032、1048、1050和1052是在尺寸和形状方面不同于预测单元1060中的数据单元的数据单元。换言之,根据实施方式的视频编码设备100和视频解码设备200可在相同编码单元的单个数据单元上执行帧内预测、运动估算、运动补偿、变换以及逆变换。
因此,对最大编码单元的每个区域中具有分层结构的编码单元中的每个递归地执行编码,以确定最佳编码单元,因此,可获得具有递归树形结构的编码单元。编码信息可包括与编码单元有关的分割信息、与分区模式有关的信息、与预测模式有关的信息和与变换单元的尺寸有关的信息。表1示出可由根据实施方式的视频编码设备100和视频解码设备200设置的编码信息。
表1
根据实施方式的视频编码设备100的输出单元130可输出与具有树形结构的编码单元有关的编码信息,并且根据实施方式的视频解码设备200的图像数据与编码信息提取器220可从接收的比特流中提取与具有树形结构的编码单元有关的编码信息。
分割信息表明当前编码单元是否分割成较深深度的编码单元。如果当前深度d的分割信息为0,那么当前编码单元不再分割到较深深度所处的深度是深度,因此,可针对该深度来限定与分区模式、预测模式和变换单元的尺寸有关的信息。如果当前编码单元根据分割信息进一步分割,那么必须在较深深度的四个分割编码单元上独立执行编码。
预测模式可以是帧内模式、帧间模式和跳跃模式中的一个。帧内模式和帧间模式可限定于所有分区模式,而跳跃模式可以只限定于尺寸为2N×2N的分区模式。
与分区模式有关的信息可表明通过对称地分割预测单元的高度或宽度而获取的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区模式,以及通过不对称地分割预测单元的高度或宽度而获取的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的不对称分区模式。可分别通过以1:3和3:1分割预测单元的高度来获取尺寸为2N×nU和2N×nD的不对称分区模式,并且可分别通过以1:3和3:1分割预测单元的宽度来获取尺寸为nL×2N和nR×2N的不对称分区模式。
变换单元的尺寸可设置为在帧内模式下有两个类型并且在帧间模式下有两个类型。换言之,如果变换单元的分割信息为0,那么变换单元的尺寸可以是2N×2N,也就是当前编码单元的尺寸。如果变换单元的分割信息为1,那么可通过分割当前编码单元来获得变换单元。此外,如果尺寸为2N×2N的当前编码单元的分区模式是对称分区模式,那么变换单元的尺寸可以是N×N,而如果当前编码单元的分区类型是不对称分区模式,那么变换单元的尺寸可以是N/2×N/2。
根据实施方式的与具有树形结构的编码单元有关的编码信息可分配到与深度对应的编码单元、预测单元和最小单元中的至少一个。与深度对应的编码单元可包括具有相同编码信息的预测单元和最小单元中的至少一个。
因此,通过比较相邻数据单元的多项编码信息来确定相邻数据单元是否包括在与深度对应的相同编码单元中。此外,可通过使用数据单元的编码信息来确定与深度对应的对应编码单元,因此可推断出最大编码单元中的深度的分布。
因此,如果基于相邻数据单元的编码信息来预测当前编码单元,那么可直接参考并使用与当前编码单元相邻的较深编码单元中的数据单元的编码信息。
作为另一示例,如果通过参考相邻编码单元来对当前编码单元进行预测编码,那么通过使用相邻编码单元的多项编码信息以可参考相邻编码单元的方式来搜索与当前编码单元相邻并且在较深编码单元中的数据单元。
图20是用于描述根据表1的编码模式信息的编码单元、预测单元与变换单元之间的关系的示意图。
最大编码单元1300包括编码单元1302、1304、1306、1312、1314、1316、以及具有深度的1318。此处,由于编码单元1318是具有深度的编码单元,因此,分割信息可设置为0。与尺寸为2N×2N的编码单元1318的分区模式有关的信息可设置为下列一个:尺寸为2N×2N的分区模式1322、尺寸为2N×N的分区模式1324、尺寸为N×2N的分区模式1326、尺寸为N×N的分区模式1328、尺寸为2N×nU的分区模式1332、尺寸为2N×nD的分区模式1334、尺寸为nL×2N的分区模式1336以及尺寸为nR×2N的分区模式1338。
变换单元的分割信息(TU尺寸标记)是一种类型的变换索引。与变换索引对应的变换单元的尺寸可根据编码单元的预测单元类型或分区模式而改变。
例如,当与分区模式有关的信息设置为对称,即,尺寸为2N×2N的分区模式1322、尺寸为2N×N的分区模式1324、尺寸为N×2N的分区模式1326或尺寸为N×N的分区模式1328时,如果变换单元的TU尺寸标记为0,则可设置尺寸为2N×2N的变换单元1342,而如果TU尺寸标记为1,则可设置尺寸为N×N的变换单元1344。
当与分区模式有关的信息设置为不对称,即,尺寸为2N×nU的分区模式1332、尺寸为2N×nD的分区模式1334、尺寸为nL×2N的分区模式1336或尺寸为nR×2N的分区模式1338时,如果TU尺寸标记为0,则可设置尺寸为2N×2N的变换单元1352,而如果TU尺寸标记为1,则可设置尺寸为N/2×N/2的变换单元1354。
参考图19,TU尺寸标记是值为0或1的标记,但根据实施方式的TU尺寸标记不限于1比特的标记,并且在TU尺寸标记从0增加时,变换单元可分层地分割。该TU尺寸标记可以是变换索引的一个示例。
在这种情况下,实际使用的变换单元的尺寸可通过使用根据实施方式的TU尺寸标记以及变换单元的最大尺寸和变换单元的最小尺寸一起来表示。根据实施方式的视频编码设备100可对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记信息进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记信息进行编码的结果可插入到SPS。根据实施方式的视频解码设备200可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记信息来对视频进行解码。
例如,(a)如果当前编码单元的尺寸是64×64并且最大变换单元尺寸是32×32,那么(a-1)变换单元的尺寸在TU尺寸标记为0时可以是32×32,(a-2)在TU尺寸标记为1时可以是16×16,以及(a-3)在TU尺寸标记为2时可以是8×8。
作为另一示例,(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32,那么(b-1)变换单元的尺寸在TU尺寸标记为0时可以是32×32。此处,由于变换单元的尺寸不可小于32×32,因此,TU尺寸标记无法设置成除了0之外的值。
作为另一示例,(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标记是1,那么TU尺寸标记可以是0或1。此处,TU尺寸标记无法设置成除了0或1之外的值。
因此,如果将最大TU尺寸标记定义为“MaxTransformSizeIndex”,将最小变换单元尺寸定义为“MinTransformSize”,并且当TU尺寸标记为0时变换单元尺寸为“RootTuSize”,那么可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”可由等式(1)限定:
CurrMinTuSize
=max(MinTransformSize,RootTuSize/(2^MaxTransformSizeIndex))...(1)
与可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”相比,TU尺寸标记为0时的变换单元尺寸“RootTuSize”可表示可以在系统中选择的最大变换单元尺寸。在等式(1)中,“RootTuSize/(2^MaxTransformSizeIndex)”表示在TU尺寸标记为0时变换单元尺寸“RootTuSize”被分割与最大TU尺寸标记对应的次数时的变换单元尺寸,并且“MinTransformSize”表示最小变换尺寸。因此,“RootTuSize/(2^MaxTransformSizeIndex)”和“MinTransformSize”之中的较小值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。
根据实施方式的最大变换单元尺寸RootTuSize可根据预测模式而改变。
例如,如果当前预测模式是帧间模式,那么“RootTuSize”可通过使用下列等式(2)来确定。在等式(2)中,“MaxTransformSize”表示最大变换单元尺寸,并且“PUSize”表示当前预测单元尺寸。
RootTuSize=min(MaxTransformSize,PUSize).........(2)
换言之,如果当前预测模式是帧间模式,那么在TU尺寸标记为0时,变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸之中的较小值。
如果当前分区单元的预测模式是帧内模式,那么“RootTuSize”可通过使用下列等式(3)来确定。在等式(3)中,“PartitionSize”表示当前分区单元的尺寸。
RootTuSize=min(MaxTransformSize,PartitionSize)...........(3)
换言之,如果当前预测模式是帧内模式,那么在TU尺寸标记为0时,变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元的尺寸之中的较小值。
然而,根据分区单元中的预测模式的类型而改变的当前最大变换单元尺寸“RootTuSize”仅仅是示例,并且本公开不限于此。
根据参考图8到图20描述的基于具有树形结构的编码单元的视频编码方法,针对树形结构的每个编码单元,将空间域的图像数据编码。根据基于具有树形结构的编码单元的视频解码方法,针对每个最大编码单元执行解码,以重建空间域的图像数据。因此,可重建图片和视频(即,图片序列)。重建的视频可由播放设备播放、可存储在存储介质中、或可通过网络传输。
根据本公开的实施方式可编写为计算机程序,并且可在使用计算机可读记录介质执行程序的通用数字计算机中实施。计算机可读记录介质的示例包括磁存储介质(例如,ROM、软盘、硬盘等)和光记录介质(例如,CD-ROM或DVD)。
为便于描述,上文参考图1A到图20描述的层间视频编码方法和/或视频编码方法将统一被称为“本公开的视频编码方法”。此外,上文参考图1A到图20描述的层间视频解码方法和/或视频解码方法将被称为“本公开的视频解码方法”。
另外,已参考图1A到图20描述的视频编码设备(包括层间视频编码设备10、视频编码设备或视频编码器100或图像编码器400)将被称为“本公开的视频编码设备”。此外,已参考图1A到图20描述的视频解码设备(包括层间视频解码设备20、视频解码设备200或图像解码器500)将被称为“本公开的视频解码设备”。
现在将详细描述根据实施方式的存储程序的计算机可读记录介质,诸如,盘片26000。
图21是根据各种实施方式的存储有程序的盘片26000的物理结构的示意图。盘片26000作为一种存储介质,其可以是硬盘驱动器、紧密式只读存储器(CD-ROM)盘、蓝光光盘或数字多功能盘(DVD)。盘片26000包括多个同心盘道Tr,所述同心盘道各自在盘片26000的圆周方向上分成特定数量的扇区Se。在根据实施方式的盘片26000的特定区域中,可分配并存储执行上述量化参数确定方法、视频编码方法和视频解码方法的程序。
现在将参考图22描述使用存储介质实现的计算机系统,所述存储介质存储用于执行上述视频编码方法和视频解码方法的程序。
图22是用于通过使用盘片26000来记录和读取程序的盘片驱动器26800的示意图。计算机系统26700可经由盘片驱动器26800在盘片26000中存储用于执行本公开的视频编码方法和视频解码方法中的至少一个的程序。为了在计算机系统26700中运行存储在盘片26000中的程序,可从盘片26000中读取程序并且通过使用盘片驱动器26800将它传输到计算机系统26700。
执行本公开的视频编码方法和视频解码方法中的至少一个的程序可不仅存储在图21和图22所示的盘片26000中,还可存储在存储卡、ROM盒式磁带或固态驱动器(SSD)中。
下文将描述应用上文所述的根据实施方式的视频编码方法和视频解码方法的系统。
图23是用于提供内容分发服务的内容供应系统11000的整体结构的示意图。通信系统的服务区域分成预定尺寸的小区,并且无线基站11700、11800、11900和12000分别安装在这些小区中。
内容供应系统11000包括多个独立装置。例如,诸如计算机12100、个人数字助理(PDA)12200、摄像机12300和移动电话12500的多个独立装置经由互联网服务提供商11200、通信网络11400以及无线基站11700、11800、11900和12000连接到互联网11100。
然而,内容供应系统11000不限于如图24所示,并且装置可选择性地连接到该系统。多个独立装置可直接连接到通信网络11400,而不经过无线基站11700、11800、11900和12000。
摄像机12300是能够拍摄视频图像的成像装置,例如,数字摄像机。移动电话12500可采用例如个人数字通信(PDC)、码分多址(CDMA)、宽带码分多址(W-CDMA)、全球移动通信系统(GSM)以及个人手持式电话系统(PHS)等各种协议中的至少一个通信方法。
摄像机12300可经由无线基站11900和通信网络11400连接到流式服务器11300。流式服务器11300允许经由摄像机12300从用户接收的内容经过实时广播进行流传输。从摄像机12300接收的内容可由摄像机12300或流式服务器11300进行编码。由摄像机12300拍摄的视频数据可经由计算机12100传输到流式服务器11300。
由相机12600拍摄的视频数据也可经由计算机12100传输到流式服务器11300。相机12600是能够拍摄静态图像和视频图像的成像装置,类似于数字相机。由相机12600拍摄的视频数据可使用相机12600或计算机12100进行编码。对视频执行编码和解码的软件可存储在可由计算机12100访问的计算机可读记录介质中,例如,CD-ROM盘、软盘、硬盘驱动器、SSD或存储卡。
如果视频数据由内置在移动电话12500的相机拍摄,那么视频数据可从移动电话12500中接收。
视频数据也可由安装在摄像机12300、移动电话12500或相机12600中的大规模集成电路(LSI)系统进行编码。
在根据实施方式的内容供应系统11000中,由用户使用摄像机12300、相机12600、移动电话12500或另一成像装置记录的内容数据(例如,在音乐会期间记录的内容)被编码并传输到流式服务器11300。流式服务器11300可采用流内容类型将编码的内容数据传输到请求内容数据的其他客户端。
客户端是能够对编码的内容数据进行解码的装置,例如,计算机12100、PDA 12200、摄像机12300或移动电话12500。因此,内容供应系统11000允许客户端接收和播放编码的内容数据。此外,内容供应系统11000允许客户端接收编码的内容数据,并且实时解码和播放编码的内容数据,从而实现个人播放。
本公开的视频编码设备和视频解码设备可应用于内容供应系统11000中包括的多个独立装置的编码操作和解码操作。
现在将参考图24和图25详细地描述内容供应系统11000中包括的移动电话12500的实施方式。
图24示出根据各种实施方式的应用本公开的视频编码方法和视频解码方法的移动电话12500的外部结构。移动电话12500可以是智能电话,它的功能不受限制并且其大量的功能可改变或扩展。
移动电话12500包括外部天线12510,经由该外部天线,射频(RF)信号可与图21的无线基站12000进行交换。移动电话12500还包括显示屏12520,所述显示屏12520用于显示由相机12530拍摄的图像或经由天线12510接收并解码的图像,例如,液晶显示器(LCD)或有机发光二极管(OLED)屏。移动电话12500包括操作面板12540,所述操作面板12540包括控制按钮和触摸面板。如果显示屏12520是触摸屏,那么操作面板12540还包括显示屏12520的触摸感应面板。移动电话12500包括用于输出语音和声音的扬声器12580或另一类型的声音输出单元,以及用于输入语音和声音的麦克风12550或另一类型的声音输入单元。移动电话12500还包括相机12530,诸如,电荷耦合装置(CCD)相机,以拍摄视频或静态图像。移动电话12500可还包括:存储介质12570,该存储介质12570用于存储编码/解码的数据,例如,由相机12530拍摄、经由电子邮件接收或根据各种方式获取的视频或静态图像;以及槽12560,存储介质12570经由该槽12560装载到移动电话12500中。存储介质12570可以是闪存,例如,安全数字(SD)卡或者包括在塑料盒中的电可擦除可编程只读存储器(EEPROM)。
图25示出移动电话12500的内部结构。为了系统地控制包括显示屏12520和操作面板12540的移动电话12500的部分,电源电路12700、操作输入控制器12640、图像编码单元12720、相机接口12630、LCD控制器12620、图像解码单元12690、多路复用器/多路分解器12680、记录/读取单元12670、调制/解调单元12660以及声音处理器12650经由同步总线12730连接到中央控制器12710。
如果用户操作电源按钮并从“关机”状态设置到“开机”状态,那么电源电路12700将电力从电池组供应到移动电话12500的所有部分,从而在操作模式下设置移动电话12500。
中央控制器12710包括中央处理单元(CPU)、ROM和RAM。
在移动电话12500将通信数据传输到外部时,移动电话12500在中央控制器12710的控制下生成数字信号。例如,声音处理器12650可生成数字声音信号,图像编码单元12720可产生数字图像信号,并且消息的文本数据可经由操作面板12540和操作输入控制器12640生成。当数字信号在中央控制器12710的控制下传输到调制/解调单元12660时,调制/解调单元12660对数字信号的频带进行调制,并且通信电路12610在频带经调制的数字声音信号上执行数模转换(DAC)和频率转换。从通信电路12610输出的传输信号可经由天线12510传输到语音通信基站或无线基站12000。
例如,当移动电话12500处于对话模式时,经由麦克风12550获取的声音信号在中央控制器12710的控制下被声音处理器12650转换成数字声音信号。数字声音信号可经由调制/解调单元12660和通信单元12610转换成传输信号,并且可经由天线12510传输。
当文本消息(例如,电子邮件)在数据通信模式下传输时,文本消息的文本数据经由操作面板12540输入,并且经由操作输入控制器12640传输到中央控制器12610。在中央控制器12610的控制下,文本数据经由调制/解调单元12660和通信电路12610变换成传输信号,并且经由天线12510传输到无线基站12000。
为了在数据通信模式下传输图像数据,经由相机接口12630将相机12530拍摄的图像数据提供到图像编码单元12720。拍摄的图像数据可经由相机接口12630和LCD控制器12620直接显示在显示屏12520上。
图像编码单元12720的结构可对应于上文所述的视频编码设备100的结构。图像编码单元12720可根据上文所述的视频编码方法将从相机12530接收的图像数据变换成压缩且编码的图像数据,并且随后将编码的图像数据输出到多路复用器/多路分解器12680。在相机12530的记录操作期间,由移动电话12500的麦克风12550获得的声音信号可经由声音处理器12650变换成数字声音数据,并且数字声音数据可传输到多路复用器/多路分解器12680。
多路复用器/多路分解器12680将从图像编码单元12720接收的编码图像数据与从声音处理器12650接收的声音数据多路复用。多路复用数据的结果可经由调制/解调单元12660和通信单元12610转换成传输信号,并且可随后经由天线12510传输。
当移动电话12500接收来自外源的通信数据时,在经由天线12510接收的信号上执行频率恢复和模数转换(ADC),以将该信号转换成数字信号。调制/解调单元12660对数字信号的频带进行调制。根据数字信号的类型,频带经过调制的数字信号传输到视频解码单元12690、声音处理器12650或LCD控制器12620。
在对话模式下,移动电话12500将经由天线12510接收的信号放大,并且通过在放大的信号上执行频率转换和ADC来获取数字声音信号。在中央控制器12710的控制下,接收的数字声音信号经由调制/解调单元12660和声音处理器12650转换成模拟声音信号,并且模拟声音信号经由扬声器12580输出。
当在数据通信模式下时,接收在互联网网站访问的视频文件的数据,经由调制/解调单元12660将经由天线12510从无线基站12000接收的信号作为多路复用数据输出,并且将多路复用数据传输到多路复用器/多路分解器12680。
为了对经由天线12510接收的多路复用的数据进行解码,多路复用器/多路分解器12680将多路复用的数据多路分解成编码视频数据流和编码音频数据流。经由同步总线12730,编码视频数据流和编码音频数据流分别被提供到视频解码单元12690和声音处理器12650。
图像解码单元12690的结构可对应于上文所述的视频解码设备200的结构。图像解码单元12690可根据上文所述的视频解码设备200或图像解码器500采用的视频解码方法对编码的视频数据进行解码,以获得重建的视频数据并且经由LCD控制器12620将重建的视频数据提供到显示屏12520。
因此,在互联网网站访问的视频文件的数据可显示在显示屏12520上。同时,声音处理器12650可将音频数据转换成模拟声音信号,并且将模拟声音信号提供到扬声器12580。因此,在互联网网站访问的视频文件中含有的音频数据也可经由麦克风12580而播放。
移动电话12500或另一类型的通信终端可以是包括本公开的视频编码设备和视频解码设备的收发终端,可以是只包括视频编码设备的收发终端,或者可以是只包括视频解码设备的收发终端。
根据本公开的通信系统不限于上文参考图24描述的通信系统。例如,图26示出根据各种实施方式的采用通信系统的数字广播系统。根据实施方式的图26的数字广播系统可通过使用本公开的视频编码设备和视频解码设备来接收经由卫星或地面网络传输的数字广播。
更具体地,广播站12890通过使用无线电波而将视频数据流传输到通信卫星或广播卫星12900。广播卫星12900传输广播信号,并且广播信号经由家用天线12860传输到卫星广播接收器。在每个家庭中,编码的视频流可由TV接收器12810、机顶盒12870或另一装置解码并播放。
当本公开的视频解码设备实施于播放设备12830中时,播放设备12830可对记录在存储介质12820(诸如,盘片或存储卡)上的编码视频流进行解析和解码,以重建数字信号。因此,重建的视频信号可例如在显示器12840上播放。
在连接到用于卫星/地面广播的天线12860或用于接收电缆电视(TV)广播的电缆12850的机顶盒12870中,可安装本公开的视频解码设备。从机顶盒12870输出的数据也可在TV显示器12880上播放。
作为另一示例,本公开的视频解码设备可安装在TV接收器12810中,而不是机顶盒12870中。
具有适当天线12910的汽车12920可接收从卫星12900或图23的无线基站11700传输的信号。解码的视频可在安装于汽车12920中的汽车导航系统12930的显示屏上播放。
视频信号可由本公开的视频编码设备进行编码,并且可随后记录并存储到存储介质中。具体而言,图像信号可由DVD记录器存储在DVD光盘12960中,或者可由硬盘记录器12950存储在硬盘中。作为另一示例,视频信号可存储在SD卡12970中。如果硬盘记录器12950包括根据实施方式的本公开的视频解码设备,那么记录在DVD光盘12960、SD卡12970或另一存储介质上的视频信号可在TV显示器12880上播放。
汽车导航系统12930可不包括图26的相机12530、相机接口12630和图像编码单元12720。例如,计算机12100和TV接收器12810可不包括图26的相机12530、相机接口12630和图像编码单元12720。
图27是示出根据各种实施方式的使用视频编码设备和视频解码设备的云计算系统的网络结构的示意图。
本公开的云计算系统可包括云计算服务器14000、用户数据库(DB)14100、多个计算资源14200以及用户终端。
响应于来自用户终端的请求,云计算系统经由数据通信网络(例如,互联网)来提供多个计算资源14200的按需外包服务。在云计算环境下,通过使用虚拟化技术将位于物理上不同位置的数据中心处的计算资源相结合,服务提供商为用户提供所需的服务。服务用户不必将计算资源(例如,应用、存储、操作系统(OS)和安全应用)安装到他/她自己的终端中以进行使用,而是可在所需的时间点从通过虚拟化技术生成的虚拟空间中的服务之中选择并使用所需服务。
指定服务用户的用户终端经由包括互联网和移动远程通信网络的数据通信网络连接到云计算服务器14000。从云计算服务器14000可对用户终端提供云计算服务,具体地如视频播放服务。用户终端可以是能够连接到互联网的各种类型的电子装置,例如,台式PC 14300、智能TV 14400、智能电话14500、笔记本电脑14600、便携式多媒体播放器(PMP)14700、平板PC 14800等。
云计算服务器14000可将分布在云网络中的多个计算资源14200进行组合,并且将组合的结果提供到用户终端。多个计算资源14200可包括各种数据服务,并且可包括从用户终端上传的数据。如上文所述,云计算服务器14000可通过根据虚拟化技术将分布在不同区域中的视频数据库进行组合来将所需的服务提供到用户终端。
与订阅云计算服务的用户有关的用户信息存储在用户数据库14100中。用户信息可包括用户的登录信息、地址、姓名和个人信用信息。用户信息可还包括视频的索引。此处,索引可包括已经播放的视频列表、正在播放的视频列表、过去播放的视频的暂停点等。
存储在用户数据库14100中的与视频有关的信息可在用户装置之间共享。例如,当响应于来自笔记本电脑14600的请求而将视频服务提供到笔记本电脑14600时,视频服务的播放历史便存储在用户数据库14100中。当从智能电话14500接收播放该视频服务的请求时,云计算服务器14000基于用户数据库14100来搜索并播放该视频服务。当智能电话14500接收来自云计算服务器14000的视频数据流时,通过对视频数据流进行解码来播放视频的过程类似于上文参考图24描述的移动电话12500的操作。
云计算服务器14000可参考存储在用户数据库14100中的所需视频服务的播放历史。例如,云计算服务器14000接收来自用户终端的播放存储在用户数据库14100中的视频的请求。如果这个视频已在播放,那么由云计算服务器14000执行的流传输这个视频的方法可根据用户终端的请求而改变,即,根据从视频的开头还是暂停点开始播放该视频。例如,如果用户终端请求从视频的开头开始播放该视频,那么云计算服务器14000将从视频的第一帧开始的视频的流数据传输到用户终端。如果用户终端请求从视频的暂停点开始播放该视频,那么云计算服务器14000将从对应于暂停点的帧开始的视频的流数据传输到用户终端。
在这种情况下,用户终端可包括如上文参考图1A到图20描述的本公开的视频解码设备。作为另一示例,用户终端可包括如上文参考图1A到图20描述的本公开的视频编码设备。或者,用户终端可包括如上文参考图1A到图20描述的本公开的视频解码设备和视频编码设备两者。
上文已参考图21到图27描述了根据上文参考图1A到图20描述的各种实施方式的视频编码方法、视频解码方法、视频编码设备和视频解码设备的各种应用。然而,根据各种实施方式的将视频编码方法和视频解码方法存储在存储介质中的方法或者在装置中实施视频编码设备和视频解码设备的方法不限于上文参考图21到图27描述的实施方式。
本领域普通技术人员将理解,在不脱离如所附权利要求限定的本公开的精神和范围的情况下,可对本公开在形式和细节方面做出各种改变。实施方式应仅被视作描述性的含义,而不是用于限制的目的。因此,本公开的范围并不由本公开的详细描述限定,而是由所附权利要求限定,并且该范围内的所有差异都将被解释为包括在本公开中。