一种用于盲人读取汉字的方法及系统的利记博彩app
【技术领域】
[0001] 本发明涉及自然语言处理技术领域和面向残疾人的人机交互技术领域,特别是涉 及一种用于盲人读取汉字的方法及系统。
【背景技术】
[0002] 在当今信息社会,信息化水平不断提高,信息技术在人们的工作、学习和生活中得 到了广泛应用,而互联网也成为人们日常生活中的一个重要组成部分,网络以一种便捷的 方式为人们提供了海量的信息资源。在中国,各种数字化、网络文本资源大多以汉语文本的 形式存储,而这些资源难以被我国现有的1200万盲人所使用。这阻碍了盲人像正常人一样 享受海量的信息资源,使盲人和正常人之间的信息鸿沟不断扩大,盲人在信息化社会中的 生存和发展能力受到进一步制约。虽然现有的语音合成技术日趋成熟,网络上大量的文本 资源可以通过语音合成转换为音频文件使得盲人可以通过听觉获得这些信息,但语音资源 的存储比较耗费空间,并且在携带、查询等方面并不方便,而且,语音通道获取信息效率较 低,因此,对于盲人来说,阅读文本资源仍然是获得信息最重要的方式。
[0003] 我国盲人在阅读书写时使用的文字是中国盲文,中国盲文基于布莱尔(Braille) 盲文体系,每个盲符均以两列共6个点作为一个基本结构,这6个点有的凸起,有的不凸起, 形成64种变化,即能表示64种不同的字符。在汉语盲文中,每种字符分别表示汉语拼音中 的一个声母、韵母或声调,不同的字符按照汉语拼音规则组成合法音节以表示汉字,因此, 中国盲文本质上是一种拼音文字。盲文一般印刷和书写在特制的较厚的盲文纸上,在盲文 纸上压出凸起的点位以供盲人摸读。为使盲人能够在计算机上摸读盲文,当前已经设制和 生产出了盲用点显器,这种设备可与计算机连接,接收计算机中的盲符串,并将其在点显机 面板上显示为相应的凸起的点位,当收到新的盲符串后,可在面板上清除原来的点位重新 显示新的点位。
[0004] 虽然有了点显器,但是盲人仍然很难在计算机上读取汉语文本,原因在于还需要 将汉语文本转换为盲文。由于汉语普遍存在的一音多字、一字多音等现象,使得汉语到盲文 的转换并非简单的规则对应,而需要综合考虑语法、语义等。更为重要的是,盲文具有分词 连写规则,要求将具备一定语义的词或短语用一个"空方"分隔开来,以便于盲人理解。当 前已有方法一般基于盲文分词连写规则对汉语分词结果进行调整以得到分词后的盲文,但 由于盲文分词连写规则一般与语义相关且有一定的主观性,因此,由计算机自动完成时分 词准确率较低,在使用这些方法进行转换之后,还需要做大量人工修正工作,造成了效率低 下,也使得盲文文本资源的获取的时间较长且成本较高。因此,提高汉盲转换的准确率,减 少人工修正的操作,加快汉盲转换的效率,对于提高中文信息资源在盲人群体中的普及率, 让盲人群体更好地融入主流社会中有着重要的现实意义。
【发明内容】
[0005] 针对现有技术的不足,本发明提出一种用于盲人读取汉字的方法及系统。
[0006] 本发明提出一种用于盲人读取汉字的方法,包括:
[0007] 步骤1,获取汉语文本,对所述汉语文本进行分词操作,生成汉字串,通过发音词 典、多音字字典与词频信息,参考分词得到的词性标注,将所述汉字串中的每个词转换为对 应的拼首并连接为拼首串;
[0008] 步骤2,通过查找拼音和盲符的对照字典,将所述拼音串转换为盲符串,通过分词 模型对所述盲符串进行盲文分词,生成初始盲文分词,将所述汉字串与所述初始盲文分词 进行融合,生成新盲文分词,根据盲文分词连写规则对所述新盲文分词进行调整;
[0009] 步骤3,对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调,生成最 终盲文分词,将所述最终盲文分词进行显示。
[0010] 所述的用于盲人读取汉字的方法,所述步骤1中将所述汉字串转换成拼音串的具 体步骤为:
[0011] 步骤2. 1对于所述汉字串中的每个词,判断每个词是否为多字词,若为多字词,且 在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多字词对应的拼音,否则 执行步骤2. 2 ;
[0012] 步骤2. 2将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉字,对 每个汉字,执行步骤2. 3至2. 4 ;
[0013] 步骤2. 3对于当前汉字,查找多音字字典,判断所述当前汉字是否为多音字,若非 多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音;否则执行步骤2. 4 ;
[0014] 步骤2. 4若为多音字,则执行以下步骤,具体步骤为:
[0015] 步骤2. 4. 1如果当前多音字来自于一个单字词,则直接执行步骤2. 4. 2 ;若为多字 词,则执行下述步骤:
[0016] 对于多字词中的多音字wk,a)步骤,与后续η个字组成一n+1字的词\n = wkwk+1…wk+n,在多音字词组字典中查找\n,如查找到,则以\η中被查找到字的发音作为 多音字^的读音并返回;如未查到,则执行b)步骤,与前面η个字组成一n+1字的词Wnk,k =wnkwnkk+1···^,在多音字词组字典中查找Wnkik,如查找到,则以\η中被查找到字的发音 作为多音字的读音并返回,如未查找,则分别与后续及前面n-1个字组成一η字的词\ni、 Wnk+lik,对所述多字词分别执行a)、b)步骤,直至确定所述多音字wk发音;
[0017] 步骤2. 4. 2假设所述多音字有ton% . . .,tonen*η个读音,分词词性概率定义为 Ppcis,权值为,语言模型概率定义为Ρ1ηι,权值为λ2,分词词频概率定义为Pfraq,权值为λ3, 系统为所述多音字的每一个读音计算一个得分Score;,其中Scorei=λ1·Ρρει;3(?:οηθ?) +λ2· Ρ1πι(?οηθ?) +λ3 ?Pfrjtonei),取出得分最高的读音
>?作为多音字的最终拼音并返 回。
[0018] 所述的用于盲人读取汉字的方法,所述步骤2中进行融合的步骤为,对于所述汉 字串C =Cic2…Cn与所述初始盲文分词B=b如…匕,其中Cl,别表示所述汉字串及所 述初始盲文分词中的一个分词,对于所述初始盲文分词B,将B映射至对应的所述汉字串B' =Vb'2···b'n,其中b' ,为所述初始盲文分词b,映射为中文后的分词。
[0019] 所述的用于盲人读取汉字的方法,所述步骤2中盲文分词连写规则如下:
[0020] 连写规则:P0Sk: [m,n] :P0Sk "+…+P0Sk+…+P0Sk+n-POSk^...POSh
[0021] 分词规则::[0,0]005^ +…+POSL
[0022] P0Sk为激活条件,m与η表示需要分别查看当前新盲文分词的前m个词和η个词, 如果m和η都为0,则表示这是一条分词规则,第二个冒号后表示的是分词的词性组合,如果 满足该组合,则执行右箭头之后的操作。
[0023] 所述的用于盲人读取汉字的方法,所述步骤3中所述盲文标调的具体步骤为:
[0024] 依次查看每个调整后的所述新盲文分词对应字的拼音,并与盲文标调集中的规则 进行比对,如果满足条件,则对当前新盲文分词进行标调,所述盲文标调集的格式如下:
[0025]标调规则:tonek: [n] :toneftonek+n
[0026] 其中tonek为当前新盲文分词的拼音,η为需要查看当前新盲文分词的后η个新盲 文分词的拼音,tonek···tonek+n为标调条件,如果拼音序列满足标调条件,则对tonek进行标 调。
[0027] 本发明还提出一种用于盲人读取汉字的系统,包括:
[0028] 获取拼音串模块,用于获取汉语文本,对所述汉语文本进行分词操作,生成汉字 串,通过发音词典、多音字字典与词频信息,参考分词得到的词性标注,将所述汉字串中的 每个词转换为对应的拼音并连接为拼音串;
[0029] 获取新盲文分词并调整模块,用于通过查找拼音和盲符的对照字典,将所述拼音 串转换为盲符串,通过分词模型对所述盲符串进行盲文分词,生成初始盲文分词,将所述汉 字串与所述初始盲文分词进行融合,生成新盲文分词,根据盲文分词连写规则对所述新盲 文分词进行调整;
[0030] 盲文显示模块,用于对根据盲文分词连写规则调整后的所述新盲文分词进行盲文 标调,生成最终盲文分词,将所述最终盲文分词进行显示。
[0031] 所述的用于盲人读取汉字的系统,所述获取拼音串模块中将所述汉字串转换成拼 首串的具体步骤为:
[0032] 步骤2. 1对于所述汉字串中的每个词,判断每个词是否为多字词,若为多字词,且 在发音词典中能够找到所述多字词对应的拼音,则直接返回所述多字词对应的拼音,否则 执行步骤2. 2 ;
[0033] 步骤2. 2将所述多字词切分为汉字的序列,依次取所述多字词中所有的汉字,对 每个汉字,执行步骤2. 3至2. 4;
[0034] 步骤2. 3对于当前汉字,查找多音字字典,判断所述当前汉字是否为多音字,若非 多音字,在发音词典中查找所述当前汉字的拼音并返回所述拼音;否则执行步骤2. 4;
[0035] 步骤2. 4若为多音字,则执行以下步骤,具体步骤为:
[0036] 步骤2. 4. 1如果当前多音字来自于一个单字词,则直接执行步骤2. 4. 2;若为多 字词,则执行下述步骤:
[0037] 对于多字词中的多音字wk,a)步骤,与后续η个字组成一n+1字的词\n = wkwk+1…wk+n,在多音字词组字典中查找\n,如查找到,则以\η中被查找到字的发音作为 多音字^的读音并返回;如未查到,则执行b)步骤,与前面η个字组成一n+1字的词Wnk,k =wnkwnkk+1···^,在多音字词组字典中查找Wnkik,如查找到,则以\η中被查找到字的发音 作为多音字的读音并返回,如未查找,则分别与后续及前面n-1个字组成一η字的词\ni、 Wnk+lik,对所述多字词分别执行a)、b)步骤,直至确定所述多音字wk发音;
[0038] 步骤2. 4. 2假设所述多音字有ton% . . .,tonen*η个读音,分词词性概率定义为 Ppcis,权值为,语言模型概率定义为Ρ1ηι,权值为λ2,分词词频概率定义为Pfraq,权值为λ3, 系统为所述多音字的每一个读音计算一个得分Score;,其中Scorei=λ1·Ρρει;3(?:οηθ?