音视频信号同步方法

文档序号:7851178阅读:337来源:国知局
专利名称:音视频信号同步方法
技术领域
本发明涉及可使音频信号和视频信号同步传输、播放的同步方法。
背景技术
目前,在各种网络视频、VCD、DVD、数字电视以及新涌现的IPTV、手机电视等等视频播放应用中,国际标准以及其它非标准方法都将视频与其伴音信号的压缩编码分开进行,在网络中也都分别通过不同的数据单元(包、分组或帧等)进行传输,而且音频与视频信号的压缩编码采用了完全不同的方法。由此,不可避免地要解决音视频的同步问题。特别是在网络视频应用中,不同时刻网络的吞吐量、传输时延等是不断变化的,这就使传输视频信号的分组与传输其对应伴音的分组很难同时到达接收端,从而使视频信号的播放不能与其伴音同步的问题更加严重,产生“唇音不同步”的效果。
MPEG-2中对音视频同步问题处理方法如下MPEG-2的语法是一种分层结构,主要分三层传输(Transport Stream)层、PES(Packetized Elementary Stream)层,和ES(Elementary Stream)层。MPEG-2算法的特点是在空域和时域上都进行压缩编码。在三层码流结构中都带有表示时间的信息。ES中有temporal-reference,PES中有显示时间标签和解码时间标签,而传输层中有节目参考时钟。视频、音频数据经过编码、压缩后成为ES流。然后ES流被进行一种逻辑意义上的打包,打成PES流。PES是逻辑意义上的打包ES流,原因是进行PES分割的意义并不大。PES流的包是可以任意长度的,甚至是整个序列的长度,所以它只是逻辑上的分割。PES进一步打成传输包,形成传输流。传输包的长度固定为188字节。传输流包中最重要的信息是PID和节目参考时钟。PID用以分开复用的视频、音频、数据流,节目参考时钟用来同步编码、解码端的系统时钟,特别是在实时工作的系统中。一个节目流是由有相同时基的一个或多个基本流组成,也就是说用一个节目参考时钟给各个基本流提供时间信息,而各个基本部分的时间参考都来自于同样的主时钟。传输流可以由一个或多个节目流组成,因为各节目流有各自的时基,所以它们能复用在一起,通过一定容量的信道传送。同样的信道可以传较多的简单节目,也可以传较少的复杂节目。27MHz时钟与视频的扫描速度有关,所以一般都用视频作为27MHz系统时钟的时钟源,其它部分,如音频都要用由这个时钟源得到采样时钟。节目参考时钟是系统时钟的采样值,在MPEG-2码流中,用33bit记录90kHz时钟的基本值,再用9bit来记录7MHz时钟的扩展值,节目参考时钟(PCR)的频率至少为10次/s,整个记录时间超过了24h。计算公式为PCR(s)=基本值/90×103+扩展值/27×106。如果相邻节目参考时钟之间的码流比特数是n bit,那么第二个节目参考时钟的值等于上一个节目参考时钟值加上n bit传送所需要的时间。27MHz的系统时钟要达到+30ppm,或者说偏差要达到±810Hz。另外节目参考时钟要达到±500ns的精度(不包括由于传送断续带来的影响)。在MPEG2系统模型中,认为每个传输包从编码端到解码端的时间都是一定的,所以在解码端能用软件控制的锁相环来重建系统时钟。节目参考时钟可能频繁到10次/s,所以锁相环(PLL)低通滤波器很窄,只有1Hz,这有好处,也有不利之处。设计得很好的锁相环应该能消除因为断续带来的超出其频宽的影响。只有几个赫兹的频宽能带来稳定的电视信号,但锁相要花很长时间,所以应该自适应地变化环时间参数。一般来说MPEG-2系统做成恒定比特率,对PLL的设计和得到节目参考时钟值时间的精度都带来好处。
在MPEG-2解码中,恢复出来的图像(Picture)被称为PPU(Picture Presentation Unit),解码恢复出来的语音被称为APU(Audio Presentation Unit);它们在码流中的相应部分叫PAU(Picture Access Unit)和AAU(Audio Access Unit)。一般PPU和APU是不同的,或说不相关的帧周期。例如,一个AUDIO序列,每帧有1152个采样,若采样率为44.1kHz,则帧周期为26.1ms;而一个VIDEO序列,如果帧频为29197Hz,则帧周期为33176ms。可见PPU和APU的时间边界并不一样。在编码器中,有一个共同的系统时钟,MPEG-2的系统流(以传输流为例)中,节目参考时钟是这个系统时钟的采样。在系统流中,有Video的显示时间标签(Presentation Time Stamp)和Audio的显示时间标签,表示Picture显示的时间和相应Audio回放的时间。显示时间标签也以这个系统时钟为参考,它是工作于90kHz的计数器的采样值,用33bit表示,可以记录下24h内的任何时钟周期。节目参考时钟和显示时间标签都被编码到码流中。相邻的节目参考时钟和显示时间标签间隔一般小于700ms。解码端可以按照节目参考时钟,通过一个锁相环恢复与编码端一致的本地系统时钟。显示时间标签在MPEG-2中是以一个理想的解码器(Decoder)为基础定出的。这个理想的解码器假设了通道Buffer永不上溢、下溢(对下溢有些特例);对码流的处理是瞬时的、理想的。因此,如果节目参考时钟和显示时间标签在编码端被正确编码,被无错地存储和传送,在解码端被进行正确的解码,而解码端又以节目参考时钟为基础恢复出与编码端一致的系统时钟,并且在正确的显示时间标签时间显示图像、回放声音,则视频和音频达到同步。
在本申请人的在先专利“嵌入式音视频混合信号同步编码技术”(申请号2004100788730)中,是将带有纠错码的未压缩的数字音频信号嵌入视频编码系统四维系数矩阵中相应系数的倒数第4位或第3位。该方法嵌入的是未经压缩编码的数字音频信号,因此需要嵌入的音频比特数量很大,这就不可避免地使接收视频的质量下降很多。

发明内容
本发明的目的在于提供一种音视频信号同步方法,在保证视频与其伴音信号质量以及高压缩比的前提下,实现音视频信号的同步传输和解码播放。
本发明音视频信号同步方法,是按下述编解码方式来实现音视频信号的同步传输和同步播放的a.编码方式将压缩后的音频编码比特流按位嵌入MPEG-2或AVS视频编码系统中经过量化后的系数块,然后对该嵌入压缩音频比特的系数块按原视频编码系统中的方案进行变长编码或算术编码得到混合信号的编码比特流;所述压缩后的音频编码比特嵌入视频编码系统中量化后的系数块的具体方式为设视频编码系统中量化后的系数块内具有最小距离的两个中频系数分别为A和B,并指定A为参考系数,B为调节(被嵌)系数,如果待嵌入的音频编码比特为0,且A=B,则A和B的值保持不变,而如果A≠B,则改变系数B的值,使B=A;如果待嵌入的音频编码比特为1,且A≠B,则A和B的值保持不变,而如果A=B,则改变系数B的值,使B=A-1;b.解码过程中恢复原视频系数的方式为若提取的压缩音频比特为0,则使所述的两个中频系数A和B的值保持不变;若提取的压缩音频比特为1,则改变调节系数B的值,使其与参考系数A相等。
所述的MPEG-2或AVS视频编码系统中系数块的大小为8×8,具有最小距离的两个中频系数A和B的位置分别为(3,2)和(3,3)。
在本发明的技术方案中,将压缩编码后的音频信号嵌入视频。根据采用音频压缩编码方法的不同,压缩编码后的音频数据量只是原音频数据量的四分之一、八分之一甚至更少。如采用G729标准的音频压缩编码方法,压缩编码后的音频数据量只是原音频数据量的八分之一。采用本技术方案将压缩编码后的音频信号嵌入视频,不仅实现简单而且可以保证音视频信号在编码、传输或存储以及播放等各个过程中的时刻同步。同时,在网络传输环境下,采用本技术方案可以节省音视频分别打包传输时必要的开销,从而可以提高整个系统的编码效率。
具体实施例方式
本发明的核心内容是将压缩音频比特嵌入视频编码系统实现音视频信号同步的技术。在现有的嵌入与提取技术中,其主要应用是信息安全中的水印处理,所需嵌入的信息较少,且其目的只是检测出水印的存在与否,其技术要求信息的嵌入具有安全性,鲁棒性,不可感知性,抗攻击性等特点。本发明中所采用的嵌入及提取技术是为了应用于音视频信号同步系统中的,因此,所嵌入的信息比特数较多且要求无失真地提取出所嵌入的信息比特为0或1。为了能在解码端无失真地提取出编码过程嵌入的压缩音频比特,同时尽量对视频的影响达到最小,本发明利用MPEG-2、AVS等视频编码系统中经过量化后的系数块中具有最小距离的两个中频系数的相关性,将压缩音频信号的比特嵌入其中的一个系数的嵌入方法。
所述压缩后的数字音频比特嵌入视频系数块步骤(单元)的具体方法为设量化后的系数块内具有最小距离的两个中频系数分别为A和B,并指定A为参考系数,B为调节(被嵌)系数。如果待嵌入的音频编码比特为0,且A=B,则A和B的值保持不变,而如果A≠B,则改变系数B的值,使B=A;如果待嵌入的音频编码比特为1,且A≠B,则A和B的值保持不变,而如果A=B,则改变系数B的值,使B=A-1。
具体实施步骤为
系数选择步骤选择MPEG-2、AVS等视频编码系统中量化后的系数块内具有最小距离的两个中低频系数A和B,设A为参考系数,B为调节系数即嵌入压缩音频比特的系数;MPEG-2或AVS视频编码系统中系数块的大小为8×8,具有最小距离的两个中频系数A和B的位置分别为(3,2)和(3,3)。
压缩音频嵌入调节系数步骤若待嵌入的压缩音频比特为0,且A=B,则A和B的值保持不变,而如果A≠B,则改变系数B的值,使B=A;如果待嵌入的音频编码比特为1,且A≠B,则A和B的值保持不变,而如果A=B,则改变系数B的值,使B=A-1。
压缩音频的比特提取步骤对变长解码或算术解码后的音视频混合信号(即系数块),对编码过程中嵌入音频比特的两个位置的系数A和B,若A≠B,则提取的压缩音频比特为1,否则,提取的压缩音频比特为0。
视频系数块恢复步骤若提取的压缩音频比特为0,则所选两个位置系数A和B的值保持不变,否则,若提取的压缩音频比特为1,改变调节系数B的值,使其与参考系数A相等。
本发明由以下单元组成音视频同步装置系数选择单元用于选择MPEG-2、AVS等视频编码系统中量化后的系数块内具有最小距离的两个中频系数,一个系数定为参考系数,另一个系数为调节系数;压缩音频嵌入调节系数单元根据系数选择单元选定的两个系数的相对关系,将压缩后的音频比特流嵌入调节系数;嵌入音频信息的视频编码单元对嵌入压缩音频比特的系数块按原视频编码系统中的方案进行变长编码或算术编码得到混合信号的编码比特流;压缩音频的比特提取单元根据编码系统中选定的系数块内两个位置系数的相对关系提取相应的压缩音频比特;调节视频系数恢复单元若提取的压缩音频比特为0,则所选两个位置系数的值保持不变,否则,若提取的压缩音频比特为1,改变调节系数的值,使其与参考系数相等。
本发明利用MPEG-2、AVS等视频编码系统中经过量化后的系数块中具有最小距离的两个中频系数的相关性,将压缩后的音频编码比特嵌入其中的一个系数。设量化后的系数块内具有最小距离的两个中频系数分别为A和B,并指定A为参考系数,B为调节(被嵌)系数。如果待嵌入的音频编码比特为0,且A=B,则A和B的值保持不变,而如果A≠B,则改变系数B的值,使B=A;如果待嵌入的音频编码比特为1,且A≠B,则A和B的值保持不变,而如果A=B,则改变系数B的值,使B=A-1。然后对嵌入压缩音频比特的系数块按原视频编码系统中的方案进行变长编码或算术编码得到混合信号的编码比特流,并能在解码器中根据提出的音频比特恢复被嵌视频系数,从而减少因嵌入压缩音频比特引起的视频图像质量下降。
权利要求
1.一种音视频信号同步方法,其特征在于按下述编解码方式而实现音视频信号的同步传输和同步播放,a.编码方式将压缩后的音频编码比特流按位嵌入MPEG-2或AVS视频编码系统中经过量化后的系数块,然后对该嵌入压缩音频比特的系数块按原视频编码系统中的方案进行变长编码或算术编码得到混合信号的编码比特流;所述压缩后的音频编码比特嵌入视频编码系统中量化后的系数块的具体方式为设视频编码系统中量化后的系数块内具有最小距离的两个中频系数分别为A和B,并指定A为参考系数,B为调节系数,如果待嵌入的音频编码比特为0,且A=B,则A和B的值保持不变,而如果A≠B,则改变系数B的值,使B=A;如果待嵌入的音频编码比特为1,且A≠B,则A和B的值保持不变,而如果A=B,则改变系数B的值,使B=A-1;b.解码过程中恢复原视频系数的方式为若提取的压缩音频比特为0,则使所述的两个中频系数A和B的值保持不变;若提取的压缩音频比特为1,则改变调节系数B的值,使其与参考系数A相等。
2.根据权利要求1所述的音视频信号同步方法,其特征在于,所述的MPEG-2或AVS视频编码系统中系数块的大小为8×8,具有最小距离的两个中频系数A和B的位置分别为(3,2)和(3,3)。
全文摘要
本发明涉及可使音频和视频信号同步传输、播放的一种音视频信号同步方法,本发明利用MPEG-2、AVS等视频编码系统中经过量化后的系数块中具有最小距离的两个中低频系数的相关性,将压缩后的音频编码比特嵌入其中的一个系数,然后对嵌入压缩音频比特的系数块按原视频编码系统中的方案进行变长编码或算术编码得到混合信号的编码比特流,并能在解码器中根据提出的音频比特恢复被嵌视频系数,为音视频信号同步系统提供关键的技术支持。采用本发明方法,不仅实现简单而且可以保证音视频信号在编码、传输或存储以及播放等各个过程中的时刻同步。同时,在网络传输环境下可以节省音视频分别打包传输时必要的开销,从而可以提高整个系统的编码效率。
文档编号H04N7/24GK1889685SQ20061001702
公开日2007年1月3日 申请日期2006年7月18日 优先权日2006年7月18日
发明者陈贺新, 赵岩, 齐丽凤, 桑爱军, 祝宇鸿, 陈绵书 申请人:吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1