兴趣区域感知的视频编码的利记博彩app
【专利说明】
【背景技术】
[0001]在现代通信系统中,视频信号可以通过诸如有线和/或无线网络(通常是诸如互联网的基于分组的网络)之类的介质从一个终端发送到另一个终端。通常,视频的帧在发送终端被编码器编码,以便于对其进行压缩以用于经由网络进行传送。对于给定帧的编码可以包括帧内编码,凭借帧内编码,相对于同一帧中的其他块来对块进行编码。在这样的情况下,目标块根据该块与相邻块之间的差(残差)而被编码。可替代地,对于一些帧的编码可以包括帧间编码,凭借帧间编码,目标帧中的块通常基于运动预测,相对于前序帧中的相对应的部分而被编码。在这种情况中,根据用于标识目标块与要从中预测出该块的相对应的部分之间的偏移量的运动向量,以及目标块与从中预测出该块的相对应的部分之间的差(残差),来对目标块进行编码。接收机处的相对应的解码器基于适当的预测类型来对接收到的视频信号的帧进行解码,以便于将其解压以用于输出到屏幕。可以用来指代编码器和/或解码器的通用术语是编解码器。
[0002]在预测编码之前,每个块的样本通常被量化,以便于降低对块进行编码中产生的比特率。量化指的是对在相对大规模上表示的样本或来自相对大的集合的值之中的样本进行采样,并将其转换成在相对小的规模上表示的样本或来自相对小的集合之中的样本(其可以被称为量化等级)。例如,量化可以指的是将有效连续的变量(例如,连续变量的数字近似)转换为约束到实质上离散的等级的集合的变量的过程。量化的粒度指的是要表示的样本被约束为从其中选择的规模或集合中的可能被量化成的值之间的间隔的大小,即量化等级之间的步长的大小。这还可以被描述为量化的粗度或细度。取决于该粒度,量化将某种失真引入到视频图像的表示中,但是也降低了表示图像所需的比特数量。
[0003]—些视频编解码器(例如根据H.264标准设计的那些编解码器)允许量化粒度被设置为编码的参数(并且以与被编码的比特流一起传送的边信息的形式用信号发送到解码器)。还可能的是,定义视频帧的范围内的兴趣区域(ROI),并且设置由固定的量化参数偏移所定义的该ROI内部和外部的量化参数中的差。编解码器的设计者能够潜在地使用该ROI来覆盖期望把更多的比特花费在更好地质量上的视频的任何区域。一种可能的使用是覆盖面部或面部特征。例如,通过这种方式,可以将更多的可用于通过网络来发送视频的潜在受限的可用带宽花费于提供在ROI中的质量,同时,需要花费相对少的比特来对背景和/或较低重要性的区域进行编码。
【发明内容】
[0004]发明人已经意识到,现有的方法不总是产生最期望的结果。例如,在视频通话中,视频图像通常由在大体上静止的背景下的说话的头部组成,因此,ROI可以被设置在头部、面部或诸如嘴、眼眉和眼睛等某些运动特征周围的图像区域中。在具有恒定背景的说话的头部的情况中,通过帧间编码进行的对背景的编码将实际上产生很少的比特甚至不产生比特,而与兴趣区域内部和外部的量化参数中的任何差异无关,这是因为帧之间的残差为零,与量化步长的大小无关。然而,如果ROI外部的量化过粗,则对背景的偶尔的帧内编码将是低质量的,并且此外,背景中的细小改变将随着时间引入增长的降级。因此,事实上,在一些情况中,在ROI和ROI外部之间应用特定量化偏移可能降级ROI外部的质量,而没有ROI中相对应的改善。类似的问题可能出现在视频通话或说话的头部以外的情况中。期望的是,提供ROI中的质量提升与ROI外部的质量降级之间的更均衡的折衷。
[0005]根据本公开的一个方面,提供了一种包括编码模块和适配模块的编码器。编码模块在至少一个兴趣区域中以及在该兴趣区域外部对视频进行编码。编码包括量化过程,并且编码模块能够应用在兴趣区域内部编码和在兴趣区域外部编码之间的量化粒度中的差异。适配模块确定表示兴趣区域内部和兴趣区域外部的量化效益的差异的至少一个度量,并且基于此,适配模块动态地对量化粒度中的差异进行适配。例如,度量可以包括由兴趣区域内部的编码产生的比特率相对于由外部的编码产生的比特率的指示。通过取决于被编码的数据来减轻量化的粗度中的差异,诸如面部的兴趣区域中的某种程度的较高质量仍然可以被允许,但是不总是如先前技术中的相同的极端程度。编码器由此能够提供改善视频帧的整体主观质量的更大的机会,其考虑了 ROI内部和外部的潜在影响,并且不认为ROI应该在所有情况下被给予相同的优待处理是理所当然的。
[0006]提供这样的
【发明内容】
来以简化的形式引入一系列概念,这些概念在下文的【具体实施方式】中被进一步描述。该
【发明内容】
既不是想要标识所要求的主题的关键特征或必要特征,也不是想要用来限制所要求的主题的范围。所要求的主题也不限制于用于解决【背景技术】部分提到的缺陷中的任何或全部的实现方式。
【附图说明】
[0007]为了更好地理解所描述的实施例以及示出可以如何实施这些实施例,以示例的方式来参照附图,在附图中:
[0008]图1是视频流的示意表示,
[0009]图2是通信系统的示意框图,
[0010]图3是编码的视频流的不意表不,
[0011]图4是编码器的示意框图,
[0012]图5是解码器的示意框图,以及
[0013]图6是要被编码的视频图像中的兴趣区域的示意表示。
【具体实施方式】
[0014]在基本的编码器中,不利用任何ROI的知识对帧进彳丁编码。在帧上均勾地考虑失真并且目标在于使帧中的整体失真最小化。另一方面,如果编码器知道特定区域(ROI)的主观重要性高,则其可以在那里花费更多的比特,以便于改善整体的主观质量。例如,如果场景包括正在说话的面部以及无关的背景,则以背景质量为代价来提升面部的质量可能是有利的-即使这可能降低帧的整体客观质量。
[0015]本公开解决如何在ROI和“非ROI ”区域之间分配比特的问题。
[0016]现有方法是定义ROI和非ROI之间的固定的质量差异,例如,定义ROI应该具有比非ROI高2dB的PSNR(峰值信噪比)。在H.264中,这可以通过在ROI中使用比非ROI中小的量化步长大小(产生ROI的增长的比特率)来实现。量化步长的大小由量化参数(QP)设置:较大的QP值指的是较大的步长大小并因此是较粗的粒度和较低的客观质量,而较小的QP值指的是较小的步长大小并因此是较细的粒度和较高的客观质量。ROI与非ROI之间的差异由固定的QP偏移来定义。
[0017]这种方法对于一定范围的视频工作得很好。然而,对于某些视频,其可能降级非ROI的质量,而没有ROI的相对应的改善。例如,考虑具有静态、无噪声背景的说话的头部类型的视频。非ROI视频编码器会已经将几乎所有的比特率花费在面部上,因为背景可以从前序帧中很好地预测。在比特率开销方面,背景质量几乎是无开销的,因为仅有第一个内编码的帧需要显著比特量。在这种情况下,在ROI和非ROI之间实施2dB的差别将会主要降级背景质量而没有面部的明显改善(来自初始帧内的低质量的背景将会继续停留,并且背景中的细小或者偶然的改变将会以低质量被反映)。将R个比特花费在面部时的面部质量的增益远小于将R个比特花费在背景时背景质量的增益。或者,换言之,与面部的率失真(R-D)函数相比,背景的R-D函数显著地更加陡峭。
[0018]相反地,其反面可以成立:如果背景是比面部高的熵(entropy) ( S卩,具有较高的时间和/或空间复杂度),则平均客观质量也将会受益于将更多的比特分配给面部。
[0019]下面公开了用于提供ROI中的质量改善与ROI外部(“非ROI”区域)中的质量降级之间的更加平衡的折衷的ROI感知的编码器。
[0020]期望的是提供一种编码器,所述编码器的行为使得其将使受制于率约束的感知的帧失真度量最小化,其中,该失真度量考虑ROI和非ROI区域的相对重要性。这样的失真度量的近似可以是:
[0021]Dp= D R0I+w.D