文本提取方法和装置的制造方法

文档序号:8412845阅读:335来源:国知局
文本提取方法和装置的制造方法
【技术领域】
[0001] 本发明涉及字符识别领域,更具体地涉及一种基于用户对图像上感兴趣文本的指 定来快速提取图像中的文本的方法和装置。
【背景技术】
[0002] 随着智能手机、便携式电脑等手持设备的越来越广泛的使用,基于用户引导的文 本检测在用户感兴趣信息检索、用户体验及人机交互领域等方面扮演的角色不断增加。但 是由于文本大小、方向、倾斜、光照、复杂背景等因素的影响,快速且准确的进行文本检测是 一项艰巨的任务。大部分的传统方法更关注于整个图像区域【文献1】及所有文本检测【文 献2】,而没有关注用户感兴趣的文本,而这部分文本对用户来说恰好是最重要的。用户感兴 趣的文本可以用来作为图像名称、标签、或人机交互的关键词等。
[0003] 其中,基于全图处理的方法经常使用边缘、颜色、连通部件、机器学习的方法对全 图提取全部文本,并筛选用户感兴趣文本。全图处理中有很多无用的操作,并且可能加入噪 声,更加糟糕的是处理时间将会灾难性的增长,那么这项技术就很难应用于对处理速度比 较敏感的手持设备中。
[0004] 全部文本提取的方法试图提取出所有的文本,以提供给用户。对用户来说,其中可 能存在大量无用的文本,并且消耗大量的处理时间,与此同时,用户感兴趣的信息被夹杂在 所有的文本信息之中,用户可能感到困惑,无所适从。
[0005] 因此需要一种能够基于用户的指定来快速提取图像中的文本的方法和装置。
[0006] [非专利文献 1] J. Du, Q. Huo, L. Sun, J. Sun, " Snap and Translate Using Windows Phone,,' International Conference on Document Analysis and Recognition, pp. 809-813,2011.
[0007] [非专利文献 2]H. G. Zhang, K. Zhao, Y. Z. Song, J. Guo, "Text extraction from natural scene image:A survey, ^Neurocomputing, 2013.
[0008] [专利文献 3] Ron karidi, Lai Chee Man, "Method and apparatus for text detection, "W02002101637A2, 2002.

【发明内容】

[0009] 在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理 解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。
[0010] 本发明的一个主要目的在于,提供一种文本提取方法,包括:获取用户对图像上感 兴趣的文本的指定;确定文本的大小;确定文本的排列方向;估计文本的排列方向的偏移 角度;根据文本的大小、排列方向和偏移角度来确定包含文本的图像片段;对图像片段中 的种子连通部件进行种子连通部件生长以提取用户感兴趣的文本。 toon] 根据本发明的一个方面,提供了一种文本提取装置,包括:文本指定单元,文本指 定单元被配置为获取用户对图像上感兴趣的文本的指定;文本大小确定单元,文本大小确 定单元被配置为确定文本的大小;文本排列方向确定单元,文本排列方向确定单元被配置 为确定文本的排列方向;排列方向偏移角度估计单元,排列方向偏移角度估计单元被配置 为估计文本的排列方向的偏移角度;图像片段确定单元,图像片段确定单元被配置为根据 文本的大小、排列方向和偏移角度来确定包含文本的图像片段;文本提取单元,文本提取单 元被配置为对图像片段中的种子连通部件进行种子连通部件生长以提取用户感兴趣的文 本。
[0012] 另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
[0013] 此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述方法的计算机程序代码。
[0014] 通过本发明,可以只处理用户感兴趣文本位置的部分图像,速度快,精度高,并能 有效地自适应文本大小、方向和倾斜角度。
[0015] 通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优 点将更加明显。
【附图说明】
[0016] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。
[0017] 图1示出了对图像应用根据本发明的一个实施例的文本提取方法的示意图;
[0018] 图2是示出根据本发明的一个实施例的文本提取方法200的示例性流程图;
[0019] 图3示出了确定图像中的用户感兴趣的文本的大小的示例性流程图;
[0020] 图4A示出了图像中的窗口的示意图;
[0021] 图4B示出了水平方向检测子和坚直方向检测子的示意图;
[0022] 图4C示出了正方形检测子的示意图;
[0023] 图5A示出了排列在水平方向上的两个连通部件的示意图;
[0024] 图5B示出了排列在坚直方向上的两个连通部件的示意图;
[0025] 图6示出了图像中的种子连通部件;
[0026] 图7是示出图像坐标系转换到世界坐标系的示意图;
[0027] 图8是示出文本的排列方向的倾斜角度的示意图;
[0028] 图9是截取图像片段的示意图;
[0029] 图10A-10B是示出对种子连通部件进行种子连通部件生长来定位用户感兴趣的 文本的不意图;
[0030] 图11是示出根据本发明的一个实施例的文本提取装置1100的示例性配置的框 图;
[0031] 图12是示出文本大小确定单元1120的示例性配置的框图;
[0032] 图13是示出排列方向偏移角度估计单元1140的示例性配置的框图;
[0033] 图14是示出图像片段确定单元1150的示例性配置的框图;
[0034] 图15是示出文本提取单元1160的示例性配置的框图;
[0035] 图16是示出可以用于实施本发明的文本提取方法和装置的计算设备的举例的结 构图。
【具体实施方式】
[0036] 下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。
[0037] 图1示出了对图像应用根据本发明的一个实施例的文本提取方法的示意图。
[0038] 根据本发明的文本提取方法可以基于用户对其感兴趣的文本所在的区域的指定, 从图1中左侧所示的图像中截取出包含用户感兴趣的文本"清水寺公园"的图像片段,对该 图像片段进行处理,提取出其中包含的文本,所提取的文本可以进一步作为图像名称、图像 标签、或作为互联网搜索的关键词来应用。下面将详细说明根据本发明的一个实施例的文 本提取方法从图像中提取用户感兴趣的文本的具体过程。
[0039] 图2是示出根据本发明的一个实施例的文本提取方法200的示例性流程图。
[0040] 如图2所示,首先,在步骤S210中,获取用户对图像上感兴趣文本的指定。
[0041] 具体地,用户可以通过智能手机、便携式电脑、平板电脑、照相机等设备获取图像。 然后用户可以在图像上指定他/她所感兴趣的文本所在区域。例如,用户可以通过用手指 点击手机或电脑上的其感兴趣的文本所在的区域,也可以通过使照相机或摄像头的焦距对 准感兴趣的文本所在的区域来指定。<
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1