一种快速准确的视频字幕提取方法

文档序号：7928439阅读：774来源：国知局

专利名称：一种快速准确的视频字幕提取方法
技术领域：
本发明涉及多媒体视频分析领域，尤其涉及一种快速而准确的视频信号中字幕的提取方法。
背景技术：
随着通信技术的迅速发展和多媒体视频资源以爆炸性速度的增加，产生了视频分析，视频检索，视频管理等技术。如何有效地对这些视频资源的内容进行描述，成为一个挑战性的研究课题。
视频的字幕信息直接地描述视频中的目标物和故事内容，使人能够更直观的来理解和欣赏视频的内容，因此是一种直接而有效的描述视频内容的特征。同时，字幕又提供了非常视频中很多重要信息，例如，人名，场景，日期，时间，比赛分数，节目介绍等等。现阶段，基于视频字幕的分析方法，
比基于音频和图像内容的分析方法更加准确，因为字幕识别OCR系统比语音和图像内容识别系统更加可靠。视频的字幕信息可被广泛的应用于基于内容的视频分析等方面，例如图像搜索，视频字幕区域增强，视频的高级特征提取，视频检索等方面。因此，对视频字幕进行有效的提取是一个必要的环节。为了能够达到实时的处理要求，视频字幕提取的速度和检测性能都是非常重要的。
视频字幕的准确提取是一个难点，主要原因有以下几点在不同视频中字幕大小，字体，颜色，和分布都是不一致的；字幕是嵌在视频场景中的，视频场景的不同也造成了字幕检测的难易程序，例如，字幕与场景的低对比度和纹理丰富场景中的字幕提取，是非常困难的；字幕是理解视频内容的一
个辅助信息，所以一般情况下，字幕的分辨率会很低。
现阶段，视频中字幕区域的检测的方法，分为两大类，利用单帧的检测
和利用多帧的检测。利用单帧的检测主要有基于连通域的方法，基于边缘的方法，基于纹理的方法；基于多帧的检测主要有多帧平均的方法。
基于连通域的方法是利用同一条字幕区域具有相近的颜色和大小等信息，将视频帧图像分割成许多小的连通域，然后再合并这些小的连通域形成一个大的连通域，例如文章"Q. Ye, Q. Huang， W. Gao， and D. Zhao, "Fast and robust text detection in images and video frames," image朋d ^s/ow Compw//"g， vol.23，pp. 565-576， 2005"。
基于边缘的方法是利用了字幕区域的边缘比较丰富，而背景区域的边缘相对简单，主要是利用边缘算子提取边缘，然后进行形态学滤波，将字幕区域确定出来，例如文章"C. W. Ngo and C. K. Chan, "Video text detection and segmentation for optical character recognition," Afw/rimed/a vol.10, no.3,
pp.261-272， Mar, 2005"。
基于纹理的方法是利用字幕区域具有特殊的纹理，主要是利用小波变换， Gabor变换，傅立叶变换等方法得到图像的纹理图，利用SVM分类器， K-means聚类，神经网络等方法将字幕区域和背景区域相区别。例如文章"D. Chen， J. Odobez, and H. Bourlard, "Text detection and recognition in images and video frames,"及ecogm力'ow， vol. 37， pp. 595-607, 2003"。
多帧平均的方法是利用多帧图像求平均图的方法来消失背景对字幕提取时带来的影响，例如文章"R. Wang, W. Jin， and L. Wu, "A novel video caption detection approach using multi-frame integration," /"fem3/7'o""/ Cb"，e"ce o"pp. 449-452, 2004，，。
在专利ZL02801652.1中公开了《一种基于图像区域复杂度的字幕检测方法》，其在技术实现上是假设字幕区域是静止的，而且位置也是图像的中下部分。在专利ZL03123473.9中公开了《一种利用字幕位置等信息进行字幕提取的方法》并将提取的结果来有效使用以辅助残障者，但是该技术的一个局限性在于字幕出现在画面中的位置信息敏感，如果有用的信息不在所制定的检测范围内，则不能很好地应用。
现有技术至少存在以下缺陷视频提取的速度和性能上不能兼优。

发明内容
本发明的目的在于克服上述现有技术不足，提出一种视频字幕提取方法，该方法能够提高视频字幕提取的准确率和速度。
本发明的技术方案是这样实现的包括以下步骤首先，抽取视频中关键帧的亮度图像；
接着，对当前关键帧的亮度图像来定位字幕条位置首先采样关键帧的亮度图像，生成纹理图；接着确定水平字幕条的位置先进行垂直纹理图水平投影求差分，然后确定水平字幕条上下边框，再确定水平字幕条左右边框；接着确定垂直字幕条的位置先进行水平纹理图垂直投影求差分，然后确定垂直字幕条左右边框，再确定垂直字幕条上下边框；最后进行字幕条去噪，确定字幕条位置；
然后，确定字幕条起始帧和终止帧首先，判断当前关键帧是否有字幕-如果没有字幕，则继续进行下一个关键帧的字幕条定位，直到有字幕条出现；如果出现字幕条，设当前关键帧为字幕条关键帧，则在前一个关键帧和字幕条关键帧之间确定字幕条的起始帧，然后用字幕条关键帧的字幕条区域依次匹配后面的关键帧，如果匹配一致，将继续匹配，直到匹配不一致，则在前一个关键帧和当前关键帧确定字幕条的终止帧；
最后，利用纹理去噪方法提取视频中的文字信息首先，求存在同一条字幕的多帧视频帧亮度图像的字幕条区域的平均和图像；接着，将平均和图像进行OTSU分割，生成只有黑白两种颜色连通域的字幕区域图像；然后，对OTSU分割后的图像确定哪种颜色为文字区域；最后，剔除非文字噪声。
所述的抽取视频关键帧亮度图像还包括
关键帧的帧号i^y>mA^w = /"ferva/x w，其中("=1，2…)，Interval是关键帧的间隔，其取值范围为10 50， Interval的大小根据需求可以调整，取值越小，字幕条提取越准确，取值越大，字幕条提取速度越快。
所述的采样关键帧的亮度图像还包括
设原始视频关键帧图像的亮度分量为/(x，力，高度为//，宽度为『，将所有要进行字幕条定位的视频帧都采样到宽小于200以下，采样级数S7V为
< ，=「log2 (『/ 200)"| + & 『> 200
采样后的图像/'(x,力，高度为/f'-H/SAA，宽度为『；『/S7V，具体采
样的方法是-
/'(x，力=/(57Vx x,57Vx力 (x = 1,2,.…,///SiV;;; = 1,2,…"^/SA0 ° 所述的生成纹理图还包括
利用变换技术求出图像的水平方向纹理，垂直方向纹理，对角线方向纹理；然后生成水平纹理图，垂直纹理图，综合纹理具体地，利用小波变换得到三个方向上的高频子带水平高频子带记为 CH,垂直高频子带记为CV，对角线高频子带记为CD,由得到的这三个高频子带，得到水平纹理图CHD，垂直纹理图CVD，综合纹理图CHVD，这
三个子带的高度为7/"=//'/2，宽度为『"=『72，具体生成方法如下-'CM)(x，力=|C//(x，力| + |CD(x，力|
< CrZ)(x，力=ICT(x，力l + ICD(x，力l O = 1，2…if";少=1，2…『")
C細(x,力=|0/(乂,力| + |CT (x，力| + 力|
其中，利用垂直纹理图CVD的水平投影，得到字幕条的上下边框；利用水平纹理图CHD的垂直投影，得到字幕条的左右边框。所述的确定水平字幕条位置还包括
首先，垂直纹理图CVD进行水平投影，得到水平投影纹理值For 。再求水平投影纹理值/Z^的一阶差分，并归一化，得到/fo^)^r，
然后，寻找//0^^#中所有满足条件的负峰值位置和正峰值位置，相邻的负正峰值对，是水平字幕条的上下边框，负峰值是水平字幕条的上边框，正峰值是水平字幕条的下边框；
最后，将水平纹理图CHD在上边框和下边框之间的纹理图进行垂直投影，再求水平投影纹理值的一阶差分，并归一化，得到7^r^D《《，搜索满足条件7^rerD〖《〉r的位置值构成一个集合，在此集合中，最小的位置值是该条字幕的左边框，最大的位置值是该条字幕的右边框。其中，T = 0.3。
所述的确定垂直字幕条位置还包括
首先，水平纹理图CHD进行垂直投影，得到垂直投影纹理值Fw。再求垂直投影纹理值Fer的一阶差分，并归一化，得到FwD《《；
然后，寻找FwD〖《中所有满足条件的负峰值位置和正峰值位置，相邻的负正峰值对，是垂直字幕条的左右边框，负峰值是垂直字幕条的左边框，正峰值是垂直字幕条的右边框；最后，将垂直纹理图CVD在左边框和右边框之间的纹理图进行水平投
影，再求水平投影纹理值的一阶差分，并归一化，得到rx/i/wD〖《，搜索满
足条件7^//0^^#〉7的位置值构成一个集合，在此集合中，最小的位置值
是该条字幕的上边框，最大的位置值是该条字幕的下边框，其中，r = o.3。
所述的确定字幕条起始帧和终止帧还包括
确定两个关键帧之间的字幕条的起始帧或终止帧方法，首先提取两个关键帧之间的中间帧，利用字幕条关键帧的字幕条信息与两个关键帧的中间帧进行匹配。
所述的确定字幕条起始帧和终止帧包括
利用字幕条关键帧的纹理图确定字幕点的位置当综合纹理图CHVD
中某位置的纹理值大于某一域值时，则该位置是字幕点。也就是说，字幕点
的位置(/，力应该满足Ci7KD(z'，力> 5x」w，则统计视频帧中在字幕点位置处像素值的差异，作为两帧中是否有同一条字幕的匹配标准。
所述的确定文字区域颜色方法包括
首先，确定OTSU分割后图像的黑白两种颜色区域位置；然后，针对黑色，求出相应位置的综合纹理图CHVD中纹理值均值，针对白色，求出相应位置的综合纹理图中纹理值均值；最后，如果黑色的纹理值均值大于白色的，
说明黑色区域是文字区域，如果白色的纹理值均值大于黑色的，说明白色区域是文字区域。
所述的剔除非文字噪声方法还包括
在确定了文字区域的颜色clr之后，针对每一个颜色为clr的连通域，计算综合纹理图CHVD中此连通域相应位置的纹理均值mean，如果mean〉^ve, 则说明此连通域为文字；如果mean^ Jw,则说明此连通域为背景。本发明是根据视频帧分辨率的大小进行等比例采样，然后进行字幕条定位，大大提高了字幕条定位的速度；利用水平纹理图的垂直投影确定字幕条的左右边框，利用垂直纹理图的水平投影确定字幕条的上下边框，大大提高了字幕条定位准确率。利用字幕点匹配方法，快速地确定字幕条起始帧和终止帧，提高了字幕提取的速度。利用纹理去噪方法提取字幕条中的文字。利用以上技术，本发明达到了准确而快速的提取视频字幕。

图1为本发明中快速准确视频字幕提取方法的系统结构框图2为纹理投影字幕条定位方法的示意图3为字幕条起始帧和终止帧确定方法的示意图4为文字提取方法的示意图。
下面结合附图对本发明的内容作进一步详细说明。
具体实施例方式
参照图1所示，其中包含如下执行步骤首先执行抽取视频关键帧亮度图像10;然后执行纹理投影定位字幕条20，以确定字幕条在视频帧中的位置信息；接下来执行确定字幕条起始帧和终止帧30，以确定当前字幕条在视频中的起始帧和终止帧的帧号，以提高字幕提取的速度；最后执行提取文字40，利用当前字幕条的持续帧信息，将字幕条中的文字和背景分离，提取字幕条中的文字信息。
在上述步骤中的抽取视频关键帧亮度图像10，其实现方式按照一定规律从视频流中仅解码视频流中提取指定的帧的亮度图像。这里的压縮视频格式可以是MPEG-l/2/4或者AVI格式等，这些解码器是公知的。关键帧的帧号《g^附A^m = /wferw/ x "，其中O = 1,2…)，Interval是视频关键帧的间隔，其取值范围为10 50， Interval的大小根据需求可以调整，取值越小，字幕条提取越准确，取值越大，字幕条提取速度越快。
参照图2所示，首先采样关键帧的亮度图像；然后生成纹理图；接着确定
水平字幕条的位置先进行垂直纹理图水平投影求差分，然后确定水平字幕条上下边框，然后确定水平字幕条左右边框；接着确定垂直字幕条的位置先进行水平纹理图垂直投影求差分，然后确定垂直字幕条左右边框，然后确定垂直字幕条上下边框；然后进行字幕条去噪；最后确定字幕条位置。具体包括
采样视频帧图像201，是根据不同视频帧的分辨率，对抽取的视频关键帧的亮度图像进行等比例采样，目的是为了加快字幕条定位的速度。另外，由于不同的视频具有不同的分辨率，在进行字幕定位时，视频帧的不同分辨率会对定位方法中域值参数的选取有很大的影响。所以，通过视频帧图像采样，将所有要进行字幕条定位的视频帧图像的大小限定在一定的范围内，对算法中域值的选取具有很强的鲁棒性。假设原始视频帧图像的亮度图像为 /0c，力，高度为H，宽度为『，将所有要进行字幕条定位的视频帧都采样到宽小于200以下，所以采样级数SW为
<formula>formula see original document page 13</formula>
采样后的图像/'(x，力，高度为//'=///>^，宽度为『；『/SiV，具体采
样的方法是
<formula>formula see original document page 13</formula>
为了便于理解所述的视频字幕提取方法的后面流程，设视频帧图像左上角为原点，即(义,力=(1,1)。生成纹理图202，是针对采样视频帧图像201得到的图像/'(jc,力，提取
它的纹理图，可以采用小波变换，Gabor变换，Sobel算子变换等等技术。在
本实施例中，采用两维的HAAR小波变换将视频帧图像变换到纹理域图像，
然后将变换后的系数求绝对值，从而获得一个低频子带，和三个方向上的高
频子带水平高频子带记为CH，垂直高频子带记为CV，对角线高频子带记
为CD。由得到的这三个方向的高频子带，生成水平纹理图CHD，垂直纹理
图CVD，综合纹理图CHVD，这三个子带的高度为/7" = //'/2，宽度为
『"=『'/2，具体生成方法如下
'C7/D0，力=(x，力| + |CZ)0，力|
< CKD(x,力=ICK(jc，力I + IO)(x,力I (jc = 1，2…//";;; = 1，2…『")
Ci^DO，力=|C7/(x，力| + |CF (x，力| + |CD(x,力
垂直纹理图水平投影求差分203，确定水平字幕条上下边框204，以及确定水平字幕条左右边框205是利用纹理图投影方法来确定在视频帧图像中水平分布的字幕条的位置信息。具体的方法如下
垂直纹理图水平投影求差分203，将垂直纹理图CVD进行水平投影，按
照水平方向求每一行纹理值的和，得到水平投影纹理值For :
『"
户i
再求水平投影纹理值Z/or的一阶差分HwDif :<formula>formula see original document page 14</formula>
设Z/o^)W中最大值为7l^xl ，则得到归一化的7/^D^为
<formula>formula see original document page 14</formula>)
确定水平字幕条上下边框204，利用//^/^#确定水平字幕条的上下边框位置。首先，寻找/^rDz:f的所有负峰值位置，且在此峰值处/forD《《〈-7;，记录所有的满足条件的负峰值位置为7b/ (^)，则该位置就是
假设的第k条字幕的上边框位置。负峰值的总个数为《，而且满足下式，并
且说明了假设的第k条字幕在第k+l条字幕的上边
7b洲< 7bp(A: + 1)A: = 1， 2..丄-1
然后，确定假设的第k条字幕是否存在，若存在并确定它的下边框位置
在假设的第k条字幕的上边框位置7b"(A:)和假设的第k+l条字幕的上边框位置7b/ (A + l)之间，寻找//0^^#的正峰值位置，且在此峰值处i/o^)i《〉7;, 若存在这样的峰值，说明假设的第k条字幕存在，则记录最靠近7b/K"位置的正峰值位置是Z)owwO)，它代表第k条字幕的下边框位置；若在7b/ (^:)和 7b户(A: + l)之间，寻找Z/o^)i《〉7;的正峰值不存在，说明7b/7(A)是噪声，假设的第k条字幕不存在。其中7;=0.4。然后再依次判断第k+l条字幕的是否存在，若存在并确定它的下边框，直到判断完《条字幕为止。
确定水平字幕条左右边框205，利用字幕条上下边框位置及水平纹理图 CHD的垂直投影来确定该条字幕的左右边框。首先，将水平纹理图CHD在上边框rop("和下边框Dmvw(A)之间的纹理图进行垂直投影，按照垂直方向求7b/ ("和Dovw("两行之间每一列纹理值的和，得到垂直投影纹理值
再求水平投影纹理值7^Kw的一阶差分7^FwD〖f:
r^F^i^fo) = rx^"o)—T^Fe"o+1)O = i, 2…『"-1)
设7^r^D《《中最大值为Mw2 ，则得到归一化的rx/FerD^为 7We^H>) = 7WwZ)#0)/Mxc2 O = 1，2.I" -1)最后，搜索满足7^^^^#0)>72中所有的>;位置构成一个集合，在此
集合中，最小的少位置是第k条字幕的左边框丄w("，最大的少位置是第k
条字幕的右边框Wg/^(A:)。其中，T2=0.3。
水平纹理图垂直投影求差分206、确定垂直字幕条左右边框207、以及确定垂直字幕条上下边框208是利用纹理图投影方法来确定在视频帧图像中垂直分布的字幕条的位置信息。具体的方法如下
水平纹理图垂直投影求差分206，将水平纹理图CHD进行垂直投影，按照垂直方向求每一列纹理值的和，得到垂直投影纹理值F^ :
;c=l
再求水平投影纹理值Fw的一阶差分FwDz:《
p^Di^"(力=—+1)o=i， 2…『"-1)
设中最大值为iWax3 ，则得到归一化的为
= FerDi^"0)/^fax3 O = 1，2.. JT" —1) 确定垂直字幕条左右边框207，利用F^D《《确定垂直字幕条左右边框位置。首先，寻找FwZ力:《的所有负峰值位置，且在此峰值位置F^D^〈-7;，则该位置就是假设的第n条字幕的左边框位置。记录所有的满足条件的负峰值位置为丄<"")，负峰值的总个数为W，而且满足下式，并且说明了假设的第n条字幕在假设的第n+l条字幕的左边
<丄e/"w + 1)w = 1,2.. JV _ 1
然后，确定假设的第n条字幕是否存在，若存在并确定它的右边框在假设的第n条字幕的左边框位置i^/"w)和假设的第n+l条字幕的左边框位置丄e/"" + l)之间，寻找K^Di^的正峰值位置，且在此峰值的F^D〖《〉7;，若存在这样的峰值，说明假设的第n条字幕存在，则记录最靠近丄e力(w)位置的正峰值位置是i^g紐(")，它代表第n条字幕的右边框位置；若在丄e/"w)和丄e/"w + l)之间，寻找F^Di^〉7;的正峰值不存在，说明z^/ o)是噪声，第 n条字幕不存在。其中r,0.4。然后再判断第n+l条字幕的是否存在，若存在并确定它的右边框。
确定垂直字幕条上下边框208，利用字幕条左右边框位置以及垂直纹理图CVD的水平投影来确定该条字幕的上下边框。首先，将垂直纹理图CVD 在左边框Z^/ (w)和右边框i /g&0)之间的纹理图进行水平投影，按照水平方向求丄e/"w)和i /gfe(")两列之间的每一行纹理值的和，得到水平投影纹理值
再求水平投影纹理值7^Z/or的一阶差分7^/fo^)z:《
rx^7ori^f(x) = rx^/or(x) - rxf//w(x + 1) (x = 1,2"J7" -1) 设7^//^/)#中最大值为Mox4，则得到归一化的7^i/wDz:《为
rx胁W肌x) = r爐orZ)薛)/Mxc4(x = 1，2 j" -1) 最后，搜索满足7^i7wD^(x)〉r2中所有的x位置构成一个集合，在此集合中，最小的x位置是第n条字幕的上边框7bp(")，最大的x位置是第n 条字幕的下边框Doww(w)。其中，r2=o.3。
字幕条去噪单元209，利用综合纹理图CHVD去除错误的字幕条即去除噪声。将得到的水平字幕条和垂直字幕条的上下左右边框位置，统一记为 7bp(/)， Dow"(/)，丄^(/)， "g&(/)，代表第/条字幕的上下左右边框位置。
则得到第/条字幕区域的面积rs(/)和综合纹理图CHVD中该区域的纹理均r,=("麵(/) - 7b/ (/)) x (i 洲/)-丄洲))
W (/) /)产w(/)
整个综合纹理图CHVD的纹理均值^ve为
x『33
如果rx"w(/)〉j^，则说明第/条字幕是真正的字幕；否则，说明第/
条字幕是噪声区域，不是真正的字幕，则去除该条字幕。
确定字幕条位置210，来确定字幕条在原始视频帧图像中真正的位置。采样视频帧图像201，根据视频帧图像的大小对其进行采样，采样级数为S7V ，以上步骤得到的第/条字幕的上下左右边框位置7bp(/)， Doww(/)，丄e/"/)， i /g&(/)，是指针对采样视频帧图像的位置。所以，原始视频帧中真正的字幕条上下左右边框位置r(/)， D(/)， "/), A(/):
=丄e/"/) x 2柳
参照图3所示，首先进行当前关键帧的字幕条定位。然后判断是否有字幕如果没有字幕，则继续进行下一个关键帧的字幕条定位，直到有字幕条出现；如果出现字幕条，设当前关键帧为字幕条关键帧，则在前一个关键帧和当前关键帧之间确定字幕条的起始帧。然后用字幕条关键帧的字幕条区域依次匹配后面关键帧，如果一致，将继续匹配，直到匹配不一致，则在前一个关键帧和当前关键帧确定字幕条的终止帧。关键帧字幕定位31，利用抽取视频关键帧亮度图像10抽取当前关键帧
的灰度图像，并执行纹理投影定位字幕条20，关键帧的帧号《e^miV訓=/wterra/ x w ，其中(w = 1,2…)。
判断是否有字幕32，若没有字幕，则继续对下一个关键帧执行纹理投影定位字幕条，直到有字幕出现为止；若有字幕，设此关键帧为字幕条关键帧，并确定字幕条起始帧。
确定字幕条起始帧33，确定在关键帧中新出现的字幕条的起始帧。假设设当前字幕条关键帧的帧号为々ml ,则前一个关键帧号 /rw2 = /rwl — /wferv"/ ，则说明该条字幕的起始帧5V"r^Vm在/rw2 /rml 之间。首先，寻找位于/rm2 戶ml之间的中间帧/rw3，其帧号如下<formula>formula see original document page 19</formula>
利用字幕条关键帧/rml的字幕条信息，与中间帧戶m3相应的字幕条位置里的信息进行匹配。l)如果匹配上了，说明/m2l和戶m3有同一条字幕，则字幕的起始帧在/，2 /m3之间，则利用々ml的字幕条信息，按照视频播放方向，从々m2开始一帧一帧的进行字幕条信息匹配，直到匹配上的时候，此帧就是字幕条的起始帧5toWFm; 2)如果没有匹配上，说明/rm3没有/w21 中的字幕条，则字幕的起始帧在/nw3 々附l之间，则利用/nwl的字幕条信息，按照视频播放方向，从々m3开始一帧一帧的进行字幕条信息匹配，直到匹配上的时候，此帧就是字幕条的起始帧&a^Frw。则说明，在5toWFrw 戶ml之间的视频帧图像中，该条字幕都是存在的。
具体的匹配方法，是利用字幕点匹配方法来判断两帧是否存在同一条字幕。因为当字幕持续时，如果字幕的背景发生剧烈的变化，例如发生场景变换和剧烈运动，两帧的字幕条匹配会有很大的影响，会发生匹配错误的情况。为了消除字幕背景的影响，利用字幕点匹配方法来判断两帧是否存在同一条
字幕。首先，利用综合纹理图CHVD寻找字幕点的位置，综合纹理图CHVD 中在字幕条内部的字幕点的位置(/，刀应该满足C/f FD0'，y) > 5 x Jw ，总个数设为N;然后，确定原始视频帧图像中字幕点的位置(/。，厶)-(/，刀x2^"; 最后，计算两帧原始视频帧图像/,和4在字幕点位置(/。，厶)处的差异值
柳")4i:ia(w。)-"w。)1
如果询^",/J^O，则说明两帧视频帧图像中的字幕条位置信息匹配上了，即同时存在该条字幕；如果^^(/p^)〉10，则说明两帧视频帧图像中的字幕条位置信息没有匹配上，即不同时存在该条字幕。
匹配关键帧字幕条34,利用字幕条关键帧的字幕条区域依次与后面的关键帧的字幕条信息进行匹配，利用上述的字幕点匹配方法。然后判断是否匹配，若匹配成功，则抽取下一个关键帧继续进行匹配，直到匹配不上，则说明该条字幕在两个关键帧之间消失了，即确定字幕条终止帧。
确定字幕条终止帧36，确定字幕条的终止帧，方法与确定字幕条起始帧类似。具体地，设当前关键帧消失了一条字幕，其帧号为/1，而前一个关键帧的存在该字幕条，其帧号为/2 = /1-/ ^""/，则说明/2中的字幕条终止帧^^Frw在/2 /l之间。首先，寻找位于/2 /1之间的中间帧/3，其帧号如下
f3—f2| /1-/2 —/1 + /2 2 2
利用前一个关键帧/2的字幕条信息，与中间帧/3相应的字幕条位置里的信息进行匹配。l)如果匹配上了，说明/2和/3有同一条字幕，则字幕的
终止帧在/3 /l之间，则利用前一个关键帧/2的字幕条信息，按照视频播放方向，从/3开始一帧一帧的进行字幕条信息匹配，直到匹配不上的时候，此帧就是字幕条的终止帧五m/FVm; 2)如果没有匹配上，说明/3没有/2中的字幕条，则字幕的终止帧在/2 /3之间，则利用前一个关键帧/2的字幕条信息，按照视频播放方向，从/2开始一帧一帧的进行字幕条信息匹配，直到匹配不上的时候，此帧就是字幕条的终止帧五w^^m。则说明，在/2 五"6/i^m之间的视频帧图像中，该条字幕都是存在的。两帧视频帧图像是字幕条信息的匹配方法利用了确定字幕条起始帧33中描述的字幕点匹配方法。
通过确定字幕条起始帧33，匹配关键帧字幕条34，判断是否匹配35和确定字幕条终止帧36，确定了一条字幕的起始帧&aWFrw和终止帧￡> /f>m ，即从视频帧5^W/>w到视频帧五W(iFm2存在同一条字幕信息，持续帧数D^Fw^五w^Vm-5VaWF，。在字幕条持续期间，只调用了一次纹理投影定位字幕条20，而不是每一帧都调用纹理投影定位字幕条20，从而大大地提高了字幕提取的速度。
参照图4所示，目的是为了将持续帧中存在的字幕条，进行文字和背景的分离，好将白色背景黑色文字进行OCR文字识别。具体方法采用纹理去噪方法来进行文字提取，步骤如下
首先，求字幕条存在的多帧连续视频帧亮度图像的字幕区域的平均和图像，例如可以采用6帧视频帧亮度图像的字幕区域。
接着，将平均和图像进行OTSU分割图像。OTSU方法(N. Otsu, "A threshold selection method from gmy-level histograms, rra肌加A， Marw，
Q^m^., vol. SMC-9, no. 1， pp. 62-66, Jan， 1979.)，是根据图像本身的特点自适应的确定一个域值，大于这个域值的区域将变成白色，小于这个域值的将变成黑色。所以，将平均和图像分割成许多连通域。连通域的颜色只有黑色和白色两种一个颜色的区域为文字区域，一颜色的区域为背景区域。
然后，确定文字区域颜色。确定OTSU分割后的图像哪种颜色为文字区域，哪种颜色为背景区域。由于，文字区域的亮度比背景区域的亮度暗还是
亮，是未知的，所以OTSU二值化分割之后，文字区域是黑色还是白色也是未知的。采用以下方法进行区别设OTSU分割图像后的字幕条图像中，所有的黑色连通区域的位置为black，所有的白色连通区域的位置为white。综合纹理图CHVD中的相应的black位置中所对应系数的均值是mean—black，它代表黑色连通区域的纹理均值；综合纹理图CHVD中的相应的white位置中所对应系数的均值是mean—white,它代表白色连通区域的纹理均值。如果 mean—black〉mean一white，则说明黑色连通区域是文字区域，白色连通区域是背景区域；如果mean一black^meai^white,则说明白色连通区域是文字区域，黑色连通区域是背景区域。
最后，剔除非文字噪声。在确定了文字区域的颜色dr之后，此种颜色的连通区域，会有一些不是真正的字幕区域的噪声连通域，为了去除噪声，我们采用下面方法针对每一个颜色为clr的连通域，计算综合纹理图CHVD 中此连通域相应的位置的纹理均值mean,如果meanXve，则说明此连通域为文字；如果mean; ^ve、则说明此连通域为背景。
通过以上的实施例，视频中的字幕已经完全被提取出来。一方面，可以确定一条字幕的持续帧号和在视频帧中具体的位置信息，也就是可以确定视频中所有字幕在视频中的时间位置和空间位置；另一方面，可以准确的提取字幕条中的文字信息，也就是将视频中所有出现过的文字提取出来，这些文字可以进行OCR识别，进而可靠的分析视频的内容。视频字幕条的起始帧和终止帧之间的帧号，字幕条在视频帧中的空间位置以及视频中字幕条的文字内容，可以广泛用于视频中高级特征提取，视频摘要，视频检索，视频分析等方法和装置。
权利要求
1、一种快速准确的视频字幕提取方法，其特征在于，包括以下步骤首先，抽取视频中关键帧的亮度图像；接着，对当前关键帧的亮度图像来定位字幕条位置首先采样关键帧的亮度图像，生成纹理图；接着确定水平字幕条的位置先进行垂直纹理图水平投影求差分，然后确定水平字幕条上下边框，再确定水平字幕条左右边框；接着确定垂直字幕条的位置先进行水平纹理图垂直投影求差分，然后确定垂直字幕条左右边框，再确定垂直字幕条上下边框；最后进行字幕条去噪，确定字幕条位置；然后，确定字幕条起始帧和终止帧首先，判断当前关键帧是否有字幕如果没有字幕，则继续进行下一个关键帧的字幕条定位，直到有字幕条出现；如果出现字幕条，设当前关键帧为字幕条关键帧，则在前一个关键帧和字幕条关键帧之间确定字幕条的起始帧，然后用字幕条关键帧的字幕条区域依次匹配后面的关键帧，如果匹配一致，将继续匹配，直到匹配不一致，则在前一个关键帧和当前关键帧确定字幕条的终止帧；最后，利用纹理去噪方法提取视频中的文字信息首先，求存在同一条字幕的多帧视频帧亮度图像的字幕条区域的平均和图像；接着，将平均和图像进行OTSU分割，生成只有黑白两种颜色连通域的字幕区域图像；然后，对OTSU分割后的图像确定哪种颜色为文字区域；最后，剔除非文字噪声。
2、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的抽取视频关键帧亮度图像还包括关键帧的帧号<formula>formula see original document page 2</formula>其中(w = l,2...)， Interval是关键帧的间隔，其取值范围为10 50， Interval的大小根据需求可以调整，取值越小，字幕条提取越准确，取值越大，字幕条提取速度越快。
3、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的采样关键帧的亮度图像还包括设原始视频关键帧图像的亮度分量为 /(X,力，高度为//，宽度为『，将所有要进行字幕条定位的视频帧都采样到宽小于200以下，采样级数SV为-<formula>formula see original document page 3</formula>采样后的图像/(x，力，高度为//'=///^^，宽度为『、『/57V，具体采样的方法是/(x,力=/(57Vx x,SiVx力 (jc = 1，2,.…，///57V; _y = 1,2,….,『/57V)。
4、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的生成纹理图还包括利用变换技术求出图像的水平方向纹理，垂直方向纹理，对角线方向纹理；然后生成水平纹理图，垂直纹理图，综合纹理图；具体地，利用小波变换技术得到三个方向上的高频子带水平高频子带记为CH，垂直高频子带记为CV，对角线高频子带记为CD，由得到的这三个高频子带，得到水平纹理图CHD，垂直纹理图CVD，综合纹理图CHVD，这三个子带的高度为//"=//'/2，宽度为『"=『'/2，具体生成方法如下 Ci/D(x，力=|Ci/(x,力| + |CD(x，力 < Cra(x,力叫CrO，力l + ICD(JC,力l (x = l,2".if";;; = l，2.I'')C//rD(x，力=|Ci/(x，力| + |CF(x,力| + |CD(x,力|其中，利用垂直纹理图CVD的水平投影，得到字幕条的上下边框；利用水平纹理图CHD的垂直投影，得到字幕条的左右边框。
5、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定水平字幕条位置还包括首先，垂直纹理图CVD进行水平投影，得到水平投影纹理值/"r，再求水平投影纹理值7/w的一阶差分，并归一化，然后，寻找//0^>#中所有满足条件的负峰值位置和正峰值位置，相邻的负正峰值对，是水平字幕条的上下边框，负峰值是水平字幕条的上边框，正峰值是水平字幕条的下边框；最后，将水平纹理图CHD在上边框和下边框之间的纹理图进行垂直投影，再求水平投影纹理值的一阶差分，并归一化，得到rx/F^Z)z:/r，搜索满足条件r^F^z)〖^^r的位置值构成一个集合，在此集合中，最小的位置值是该条字幕的左边框，最大的位置值是该条字幕的右边框，其中，r = o.3。
6、根据权利要求i所述的快速准确的视频字幕提取方法，其特征在于，所述的确定垂直字幕条位置还包括首先，水平纹理图CHD进行垂直投影，得到垂直投影纹理值Fer，再求垂直投影纹理值Fw的一阶差分，并归一化，得到F^D《《；然后，寻找rwD《《中所有满足条件的负峰值位置和正峰值位置，相邻的负正峰值对，是垂直字幕条的左右边框，负峰值是垂直字幕条的左边框，正峰值是垂直字幕条的右边框；最后，将垂直纹理图CVD在左边框和右边框之间的纹理图进行水平投影，再求水平投影纹理值的一阶差分，并归一化，得到7^i/^Z)^，搜索满足条件7^/for/^;^〉r的位置值构成一个集合，在此集合中，最小的位置值是该条字幕的上边框，最大的位置值是该条字幕的下边框，其中，r = o.3。
7、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定字幕条起始帧和终止帧还包括确定两个关键帧之间的字幕条的起始帧或终止帧，首先提取两个关键帧之间的中间帧，利用字幕条关键帧的字幕条信息与两个关键帧的中间帧进行匹配。
8、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定字幕条起始帧和终止帧包括利用字幕条关键帧的纹理图确定字幕点的位置当综合纹理图CHVD中某位置的纹理值大于某一域值时，则该位置是字幕点，也就是说，字幕点的位置(/，y)应该满足C77FD(/，/) 〉 5x ，则统计视频帧中在字幕点位置处像素值的差异，作为两帧中是否有同一条字幕的匹配标准。
9、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的确定文字区域颜色方法包括首先，确定OTSU分割后图像的黑白两种颜色区域位置；然后，针对黑色，求出相应位置的综合纹理图CHVD中纹理值均值，针对白色，求出相应位置的综合纹理图中纹理值均值；最后，如果黑色的纹理值均值大于白色的，说明黑色区域是文字区域，如果白色的纹理值均值大于黑色的，说明白色区域是文字区域。
10、根据权利要求1所述的快速准确的视频字幕提取方法，其特征在于，所述的剔除非文字噪声方法还包括在确定了文字区域的颜色clr之后，针对每一个颜色为dr的连通域，计算综合纹理图CHVD中此连通域相应位置的纹理均值mean，如果mean>^ve,则说明此连通域为文字；如果mean^ , 则说明此连通域为背景。
全文摘要
本发明公开一种快速准确的视频字幕提取方法，本发明的流程为抽取视频关键帧亮度图像，纹理投影定位字幕条，确定字幕条起始帧和终止帧，以及提取文字。通过小波变换提取视频关键帧亮度图像的纹理图，利用纹理图投影方法来定位关键帧图像中字幕条的位置；利用字幕点匹配方法来判断两帧是否存在同一条字幕，并快速地确定字幕条在视频中的起始帧和终止帧，这样只调用一次定位，便可以确定字幕条的所有持续帧，用来提高字幕提取速度；用纹理去噪方法提取字幕条中的文字。
文档编号H04N5/278GK101448100SQ20081023650
公开日2009年6月3日申请日期2008年12月26日优先权日2008年12月26日
发明者刘贵忠, 龙姜, 智李, 钱学明申请人:西安交通大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘贵忠;李智;钱学明;姜龙
技术所有人：西安交通大学
我是此专利的发明人

上一篇：Windows CE平台下源路由的实现方法
上一篇：一种lte-a中的上行多点协作联合调度方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。