一种结合视觉感知的可伸缩视频码率控制方法、装置制造方法
【专利摘要】本发明适用于视频【技术领域】,提供了一种结合视觉感知的可伸缩视频码率控制方法、装置,所述方法包括:接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;根据排序结果对各个宏块的编码码率进行控制。本发明,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率,显著度高区域的感知质量有了明显提升。
【专利说明】一种结合视觉感知的可伸缩视频码率控制方法、装置
【技术领域】
[0001]本发明属于视频【技术领域】,尤其涉及一种结合视觉感知的可伸缩视频码率控制方
法、装置。
【背景技术】
[0002]随着网络技术和各种终端设备的发展,新的视频应用要求视频编码能够以较低复杂度提供时域、空域和质量可伸缩性。可伸缩编码(Scalable VideoCoding, SVC)采用多层编码的方式把视频序列编码成相互依赖的可伸缩层集合,不同的终端设备可以根据播出能力、处理能力和网络质量,提取和解码可伸缩层的一部分。如何通过视频码率控制满足用户的个性化需求,实现播出质量的最大化成为视频压缩和传输中需要解决的关键问题。
[0003]现有的码率控制方法大都基于JVT-H017草案,通过二次率失真模型估计量化参数。作为H.264/AVC的扩展,H.264/SVC在基本层实现了码率控制算法。视觉认知的研究发现,每个视频包对于视频质量的贡献是不一样的,有必要在感知层面考虑视频内容对人眼视觉系统的激励特性,现有技术I提出了一种改进的JVT-H017算法,根据人类视觉系统特性设计加权Y分量的峰值信噪比(PeakSignaltoNoiseRatio,PSNR),再根据基本单元层的复杂度分配码率;现有技术2提出面向运动可伸缩性的率失真优化算法,通过该算法实现码流提取;现有技术3在视觉显著图的基础上,根据显著度和绝对误差修改宏块的复杂度,将码率控制应用于无线信道;现有技术4将码率和感知质量建模为帧率和量化步长的函数,应用于可伸缩码流自适应和帧率自适应。针对中粒度可伸缩编码(Medium-GrainScalable Video Coding,MGS),现有技术5提出加权率失真模型估计差错漂移的影响;现有技术6基于MGS中slices的视觉重要性分配码率。
[0004]现有技术存在的问题和不足在于:
[0005]1、采用的视觉显著图都只有二维空间信息,没有考虑时间变化所造成的人眼视觉转移和视频内容的变化;
[0006]2、使用视觉感知特性作为加权分量修改率失真模型,计算量大,并且没有从整体上考虑码率分配的边际效应。
[0007]综上所述,在网络带宽资源有限的情况下,现有的视频,经过可伸缩视频编码后,得到的可伸缩视频的主观质量比较差。
【发明内容】
[0008]本发明实施例提供了一种结合视觉感知的可伸缩视频码率控制方法、装置,旨在解决现有技术经过可伸缩编码后得到的可伸缩视频的主观视觉质量比较差的问题。
[0009]一方面,提供一种结合视觉感知的可伸缩视频码率控制方法,所述方法包括:
[0010]接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;[0011]构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
[0012]根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
[0013]根据排序结果对各个宏块的编码码率进行控制。
[0014]另一方面,提供一种结合视觉感知的可伸缩视频码率控制装置,所述装置包括:
[0015]视频处理单元,用于接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;
[0016]时空显著图获取单元,用于构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
[0017]第一排序单元,用于根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
[0018]码率控制单元,用于根据排序结果对各个宏块的编码码率进行控制。
[0019]在本发明实施例中,对输入的视频,先计算出包含时间和空间特性的时空显著图,再根据所述时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制。时空显著图中不仅包括了空间信息,还包括时间信息,该时空显著图的主观视觉质量相比现有技术采用的视觉显著图,视觉质量更高。另外,在进行码率控制时,根据时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率,显著度高区域的感知质量有了明显提升。
【专利附图】
【附图说明】
[0020]图1是本发明实施例一提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图;
[0021]图2是本发明实施例二提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图;
[0022]图3是本发明实施例二提供的人眼视觉示意图;
[0023]图4是本发明实施例三提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图;
[0024]图5是本发明实施例三提供的人眼对视频的主观视觉感知质量与视频编码码率近似关系不意图;
[0025]图6是本发明实施例四提供的结合视觉感知的可伸缩视频码率控制装置的结构框图。
【具体实施方式】
[0026]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0027]在本发明实施例中,对输入的视频,先计算出包含时间和空间特性的时空显著图,再根据所述时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制。时空显著图中不仅包括了空间信息,还包括时间信息,该时空显著图的主观视觉质量相比现有技术采用的视觉显著图,视觉质量更高。另外,在进行码率控制时,根据时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率。
[0028]以下结合具体实施例对本发明的实现进行详细描述:
[0029]实施例一
[0030]图1示出了本发明实施例一提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
[0031]在步骤SlOl中,接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图。
[0032]在本发明实施例中,时空显著图是一种三维显著图,综合考虑视频的时间和空间特性,反映人眼注视区域与注视时间之间的映射关系。时空显著图的计算过程包括初始显著计算与最终显著计算部分。
[0033]初始显著计算部分即是对接收到的视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图,具体的,可以利用Harel方法得到各个视频帧的视觉显著图。
[0034]在步骤S102中,构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图。
[0035]在本发明实施例中,最终显著区域计算部分即是在初始显著计算结果的基础上,结合考虑了视觉注视转移及延迟方面的视觉特性进一步优化,计算得到步骤SOl所述的视觉显著图的时空显著图。
[0036]在获取初始显著计算结果后,由于人眼注视视频画面过程中会发生注视、眼跳和追随运动,而人眼视觉及心理学相关研究表明,人眼对区域平均眼跳延迟(注视)时长约为350ms,平均眼跳时长约为70ms。因此为方便计算,根据人眼的视觉特性,先设置时间参数At,该时间参数At满足公式(I):
[0037]Δ tn 00 R2 (mean (Atn)) s.t.mean ( Δ tn) =420 (I)
[0038]其中,n表示第η个显著区域,R2表示显著区域的面积,^?表示注视时间和区域面积成正比,mean( Δ tn)表示取Δ tn的平均值。
[0039]再构造注视转移矩阵Pt,具体构造的Pt满足公式(2):
[0040]
【权利要求】
1.一种结合视觉感知的可伸缩视频码率控制方法,其特征在于,所述方法包括: 接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图; 构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图; 根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序; 根据排序结果对各个宏块的编码码率进行控制。
2.如权利要求1所述的方法,其特征在于,在所述构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图之后,所述方法还包括: 结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线; 根据所述二维拟合曲线对所述时空显著图进行曲线拟合,得到各个宏块的显著度加权权值; 根据所述显著度加权权值,对各个宏块的编码码率的重要性进行排序。
3.如权利要求2所述的方法,其特征在于,在所述结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线之后,所述方法还包括: 根据主观感知与编码码率曲线关系图得到各个宏块的主观视觉感觉效果分数值,并进一步得到各个宏块的编码码率的斜率; 根据所述编码码率的斜率、时空显著图以及二位拟合曲线,对各个宏块的编码码率的重要性进行排序。
4.如权利要求1所述的方法,其特征在于,所述根据排序结果对各个宏块的编码码率进行控制具体为: 优先降低显著度低区域的编码码率,同时,使所述显著度与所述编码码率的关系满足如下公式:
5.一种结合视觉感知的可伸缩视频码率控制装置,其特征在于,所述装置包括: 视频处理单元,用于接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图; 时空显著图获取单元,用于构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图; 第一排序单元,用于根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序; 码率控制单元,用于根据排序结果对各个宏块的编码码率进行控制。
6.如权利要求5所述的装置,其特征在于,所述装置还包括: 二维拟合曲线生成单元,用于结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线; 加权权值生成单元,用于根据所述二维拟合曲线对所述时空显著图进行曲线拟合,得到各个宏块的显著度加权权值; 第二排序单元,用于根据所述显著度加权权值,对各个宏块的编码码率的重要性进行排序。
7.如权利要求6所述的装置,其特征在于,所述装置还包括: 斜率计算单元,用于根据主观感知与编码码率曲线关系图得到各个宏块的主观视觉感觉效果分数值,并进一步得到各个宏块的编码码率的斜率; 第三排序单元,用于根据所述编码码率的斜率、时空显著图以及二位拟合曲线,对各个宏块的编码码率的重要性进行排序。
8.如权利要求5所述的装置,其特征在于,所述码率控制单元通过优先降低显著度低区域的编码码率来对编码码率进行控制,同时,使所述显著度与所述编码码率的关系满足如下公式:
【文档编号】H04N7/26GK103458238SQ201210455614
【公开日】2013年12月18日 申请日期:2012年11月14日 优先权日:2012年11月14日
【发明者】柳伟, 陈旭, 梁永生, 张基宏 申请人:深圳信息职业技术学院