一种处理电视节目图片的方法和装置的制造方法
【技术领域】
[0001]本发明涉及图像处理技术领域,更具体地,涉及一种处理电视节目图片的方法和
目.0
【背景技术】
[0002]电视节目播放时,特别是通过电脑等智能终端播放时,用户可以截取电视节目的某一帧作为电视节目的图片。例如,电视节目中出现用户喜欢的演员、物品、场景时,用户可以截取视频帧作为电视节目图片。
[0003]用户还可以将电视节目的图片上传到网站供其他用户观看或下载。并且,视频网站还可以将用户上传的这些电视节目图片,作为包含该电视节目的视频的摘要图片,以便提供视频的相关信息。
[0004]然而,随着用户上传的电视节目图片越来越多,如何高效地处理数量众多的电视节目图片是亟待解决的问题。
【发明内容】
[0005]有鉴于此,本发明实施例的目的是提出一种处理电视节目图片的方法和装置,能够高效地对电视节目图片进行处理。
[0006]为了达到上述目的,本发明实施例提出一种处理电视节目图片的方法,包括以下步骤:
[0007]获取电视节目图片;
[0008]识别电视节目图片中的文字;
[0009]根据识别的文字对电视节目图片进行分类。
[0010]本发明一实施例中,所述根据识别的文字对电视节目图片进行分类,包括:
[0011 ] 对识别出的文字进行分词获得词汇;
[0012]将获得的词汇进行聚类;
[0013]将聚类后属于同一类的词汇所对应的电视节目图片分为一类。
[0014]本发明一实施例中,所述方法还包括:
[0015]将获得的词汇与已有类别的名称进行匹配;
[0016]当匹配成功时,将与所述已有类别的名称匹配的词汇所属类中的所有词汇对应的电视节目图片加入到所述已有类别。
[0017]本发明一实施例中,所述将获得的词汇进行聚类,包括:将获得的词汇与已有类别的词汇进行聚类;
[0018]将聚类后属于同一类的词汇所对应的电视节目图片分为一类,还包括:
[0019]将聚类后属于所述已有类别的词汇所对应的电视节目图片加入到所述已有类别。
[0020]本发明一实施例中,所述将获得的词汇进行聚类,包括:
[0021]获取词汇之间的语义相似度;
[0022]将语义相似度高于预设值的词汇聚到一类。
[0023]本发明实施例还提出一种处理电视节目图片的装置,包括:
[0024]获取装置,用于获取电视节目图片;
[0025]识别模块,用于识别电视节目图片中的文字;
[0026]分类模块,用于根据识别的文字对电视节目图片进行分类。
[0027]本发明一实施例中,所述分类模块,包括:
[0028]分词子模块,用于对识别出的文字进行分词获得词汇;
[0029]聚类子模块,用于将获得的词汇进行聚类;
[0030]所述分类模块,还用于将聚类后属于同一类的词汇所对应的电视节目图片分为一类。
[0031]本发明一实施例中,所述装置还包括:
[0032]匹配模块,用于将获得的词汇与已有类别的名称进行匹配;
[0033]所述分类模块,还用于当匹配成功时,将与所述已有类别的名称匹配的词汇所属类中的所有词汇对应的电视节目图片加入到所述已有类别。
[0034]本发明一实施例中,所述聚类子模块,还用于:
[0035]将获得的词汇与已有类别的词汇进行聚类;
[0036]所述分类模块,还用于将聚类后属于所述已有类别的词汇所对应的电视节目图片加入到所述已有类别。
[0037]本发明一实施例中,所述聚类子模块,还用于:
[0038]获取词汇之间的语义相似度;
[0039]将语义相似度高于预设值的词汇聚到一类。
[0040]本发明实施例提供的技术方案可以包括以下有益效果:
[0041]本发明实施例中,根据电视节目图片中的文字对电视节目图片进行分类,可以将数量众多的电视节目图片进行有效的分类,分类后的电视节目图片更有利于管理、查找和使用。
[0042]本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0043]下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
【附图说明】
[0044]附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明实施例的限制。在附图中:
[0045]图1是本发明一实施例中的处理电视节目图片的方法的流程图。
[0046]图2是本发明一实施例中的处理电视节目图片的方法的流程图。
[0047]图3是本发明一实施例中的处理电视节目图片的方法的流程图。
[0048]图4是本发明一实施例中的处理电视节目图片的方法的流程图。
[0049]图5是本发明一实施例中的处理电视节目图片的装置的结构示意图。
[0050]图6是本发明一实施例中的处理电视节目图片的装置的结构示意图。
【具体实施方式】
[0051]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明实施例,并不用于限定本发明实施例。
[0052]电视节目图片可以是用户观看电视时截取并上传的、也可以是编辑人员截取的。电视节目图片可以作为电视节目(该电视节目的视频)的摘要图片。
[0053]如图1所示为本发明实施例中的处理电视节目图片的方法的流程图,该方法包括:
[0054]步骤Sll:获取电视节目图片。
[0055]步骤S12:识别电视节目图片中的文字。
[0056]步骤S13:根据识别的文字对电视节目图片进行分类。
[0057]例如,可以将包含有相同和/或语义相似的文字的电视节目图片分为一类。
[0058]本发明实施例中,根据电视节目图片中的文字对电视节目图片进行分类,可以将数量众多的电视节目图片进行有效的分类,分类后的电视节目图片更有利于管理、查找和使用。
[0059]如图2所示为本发明另一实施例提供的处理电视节目图片的方法的流程图,在该实施例中,包括以下步骤:
[0060]步骤S21:接收用户上传的电视节目图片。
[0061]用户上传的电视节目图片可以是用户在观看电视时截屏生成的。
[0062]步骤S22:对接收的电视节目图片进行图像识别,识别出电视节目图片中的文字。
[0063]图像识别过程例如可以包括图像预处理、图像分割、图像特征提取和判断匹配。其中,图像预处理:滤去干扰、噪声,当图像信息微弱无法识别时,还要对图像进行增强,集合调整,颜色校正等;图像分割:定位分离出不同的待识别物体,输入整幅图像,输出像元图像;图像特征抽取:提取特征;判断匹配:根据预设的模型将提取的特征进行匹配。
[0064]电视节目图片中的文字例如可以是电视节目图片中的文字表示的台标,也可以是电视节目图片中显示的电视节目的名称,还可以是电视节目中的其他字幕,例如显示了演员名字、场景名称等。
[0065]步骤S23:对识别出的文字进行分词获得词汇。
[0066]分词算法例如有:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
[0067]基于字符串匹配的分词方法又叫做机械分词方法,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词),按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。
[0068]基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
[0069]基于统计的分词方法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。另外还有基于统计机器学习的方法:首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。
[0070]步骤S24:将获得的词汇进行聚类。
[0071]在本发明的其他实施例中,可以根据词汇之间的语义相似度,将获得的词汇进行聚类。若两个词汇之间的语义相似度大于一个预设值,则说明这两个词汇非常相似,可以归为一类。