语料获取方法及装置的制造方法

文档序号:10534806阅读:203来源:国知局
语料获取方法及装置的制造方法
【专利摘要】本发明实施例提供了一种语料获取方法及装置,所述方法包括:获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语;将所述语法文件进行解析,按照所述组织关系将所述各个词串进行任意组合,获得多个文本句子;将所述多个文本句子作为语料,构建获得语料库,本发明实施例提高了降低了语料获取难度,提高了语料获取的准确度。
【专利说明】
语料获取方法及装置
技术领域
[0001]本发明实施例涉及信息处理技术领域,尤其涉及一种语料获取方法及装置。
【背景技术】
[0002]语料库由大量语料构成,语料通常是指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体,在语料库中,语料也即为一些文本句子。
[0003]在实际应用中,通常包括不同类型的语料库,例如音乐、电视、综艺、甚至打电话、发消息等,以实现特定类型的应用。
[0004]现有技术中,语料库中语料的获取主要是人工收集或者从互联网中爬取的,但是这种方式,都是基于已有的句子获得,已有的句子的类型多种多样,因此要爬取大量的某特定类型的文本难度极大,因此就可能导致针对特定类型的语料库,获取的语料并不准确。

【发明内容】

[0005]本发明实施例提供一种语料获取方法及装置,用以解决现有技术中特定类型的语料获取难度较大、获取的语料不准确的技术问题。
[0006]本发明实施例提供一种语料获取方法,包括:
[0007]获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语;
[0008]将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子;
[0009]将所述多个文本句子作为语料,构建获得属于所述类型的语料库。
[0010]本发明实施例提供一种语料获取装置,包括:
[0011]获取模块,用于获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语;
[0012]解析模块,用于将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子;
[0013]构建模块,用于将所述多个文本句子作为语料,构建获得属于所述类型的语料库。
[0014]本发明实施例提供的语料获取方法及装置,为任一类型预先编译语法文件,从而在语料获取时,首先获取预先编译的语法文件,并对其进行解析,从而获得多个文本句子;所述多个文本句子即作为语料,构建获得属于所述类型的语料库。本发明实施例中,通过针对任一类型预先编译的语法文件自动生成该类型对应的语料,降低了语料获取难度,且针对性更强,提高了语料获取的准确度。
【附图说明】
[0015]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本发明语料获取方法一实施例流程图;
[0017]图2为本发明语料获取方法又一实施例流程图;
[0018]图3为本发明实施例中有向图的一种不意图;
[0019]图4为本发明语料获取装置一实施例的结构示意图;
[0020]图5为本发明语料获取装置又一实施例的结构示意图。
【具体实施方式】
[0021]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0022]本发明技术方案主要用于语料库中语料的获取,可以应用于语音识别领域中,在语音识别领域中,主要用于训练语言模型,而由于语言模型包括不同类型,因此对应不同类型的语料库。
[0023]现有技术采用人工收集或者互联网爬取均是基于已有句子获得,而已有的句子的类型多种多样,因此要爬取大量的某特定类型的文本难度极大,导致获取的某一类型的语料并不准确。
[0024]为了解决现有技术中语料获取难度较大,语料获取不准确的技术问题,发明人经过一系列研究发现,提出本发明技术方案,在本发明实施例中,可以为任一类型预先编译语法文件,该语法文件中包括属于所述类型的多个词串以及所述多个词串之间的组织关系,从而在语料获取时,首先获取预先编译的语法文件,并对其进行解析,按照所述组织关系将各个词串进行任意组合,从而获得多个文本句子;所述多个文本句子即作为语料,构建获得属于所述类型的语料库。本发明实施例中,通过针对任一类型预先编译的语法文件自动生成该类型对应的语料,降低了语料获取的难度,且针对性更强,从而提高了语料获取的准确度。
[0025]下面将将结合附图对本发明技术方案进行详细描述。
[0026]图1是本发明实施例提供的一种语料获取方法一个实施例的流程图,该方法可以包括以下几个步骤:
[0027]101:获取针对任一类型的语法文件。
[0028]其中,所述语法文件采用规范化标记语言预先编译获得,语法文件中定义了所述类型对应的词串以及词串之间的组织关系。所述词串为语法文件中的终结字符,包括字、词和/或短语。
[0029]所述规范化标记语言可以是BNF(Backus-Naur Form,巴克斯范式)或者ABNF(Augmented BNF,扩展的巴克斯范式),通过对所述语法文件解析,以获得文本句子。
[0030]语法文件由多个由标记语言生成的表达式构成。通过各个表达式定义了词串之间的组织关系。
[0031]语法文件中的字符包括非终结字符以及终结字符,每一个表达式用于解释一个非终结字符,而终结字符不被表达式进行解释。
[0032]本发明实施例中所述词串是指终结字符,由终结字符最终生成文本句子。
[0033]102:将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子。
[0034]103:将所述多个文本句子作为语料,构建获得属于所述类型的语料库。
[0035]通过将语法文件进行解析,可以按照组织关系,将词串进行任意组合,获得多个文本句子,从而即可以将获得的文本句子作为语料,构成获得语料库。
[0036]在本实施例中,通过针对任一类型预先编译的语法文件,并对其进行解析,可以获得多个文本句子。预先编译的语法文件是针对任一类型进行人工书写的,因此针对性更强,从而提高了语料获取的准确度,降低了获取特定类型的语料的难度,且语料自动生成,无需人工收集,保证了语料获取的效率。
[0037]下面举一个例子,介绍一下针对任一类型预先编译的语法文件。
[0038]假设所述类型为“发短消息”类型。
[0039]则采用ABNF预先编译的语法文件可以如下所述:
[0040]&root(<Message_Act1n ByName>);
[0041 ] <Message_Act1n ByName>:〈人名消息操作1> |〈人名消息操作2> |〈人名消息操作3> I〈人名消息操作4> I〈人名消息操作5> I〈人名消息操作6> I〈人名消息操作7>;
[0042]〈人名消息操作I〉:[〈主观愿望>I〈祈使请求〉]〈操作请求X联系者名称〉[〈量词〉][〈短信操作语〉]〈消息名称〉[〈倒叙助词〉][〈结尾礼貌>];
[0043]〈人名消息操作2>:[〈主观愿望>I〈祈使请求〉]〈操作请求〉[〈量词〉]〈联系者名称〉[〈短信操作语〉]〈消息名称〉[〈倒叙助词〉][〈结尾礼貌>];
[0044]〈人名消息操作3>:[〈主观愿望>I〈祈使请求〉]〈联系者名称X操作请求〉[〈量词〉][〈短信操作语〉]〈消息名称〉[〈倒叙助词〉][〈结尾礼貌>];
[0045]〈人名消息操作4>:[〈主观愿望>I〈祈使请求〉]〈操作请求〉[〈量词〉][〈短信操作语>]〈消息名称>〈联系者名称〉[〈结尾礼貌>];
[0046]〈人名消息操作5>:[〈主观愿望>I〈祈使请求〉K联系者名称〉[〈短信操作语〉][〈量词〉]〈消息名称>〈操作请求〉[〈结尾礼貌〉];
[0047]〈人名消息操作6>:[〈主观愿望>I〈祈使请求〉][〈量词〉][〈短信操作语〉]〈消息名称>〈操作请求>〈联系者名称〉[〈结尾礼貌〉];
[0048]〈人名消息操作7>:[〈主观愿望>I〈祈使请求〉]〈操作请求〉[〈量词〉][〈短信操作语>]〈联系者名称>〈消息名称>[〈倒叙助词〉][〈结尾礼貌〉];
[0049]〈主观愿望>:[请][我I本人I本小姐][想I想要I要I我想I我要I我想要I我将要][你]&perm([〈立即〉],[给I为I帮I让][我I俺])[把];
[0050]〈祈使请求>:[能不能I能I能否I可不可以I可否][请][你]&perm([〈立即>],[给|为I帮][我I俺])[把I将];[0051 ]〈立即>:赶紧I赶紧的I快点I麻溜的I快I立即I马上I立刻I这就I立马I紧急I直接;
[0052]〈操作请求>:(&magic((〈读取 >),act1n, error ,read) [ T | 一下])|&magic((〈发送>),act1n, error, send);
[0053]〈读取>:读I看I浏览I翻阅I阅读I瞧I看看I查看I打开I说了啥I说了什么I查I找找找;
[0054]〈发送>:发I发给I发出去I发到I传送给I传给I给I发出I回复I回I回发I编辑I答复回答I转发;
[0055]〈联系者名称>:[给我 I 给我的 I 给 I 至丨J I 往]&magic( ( "data/BNFGrammar/Dic/AddressBook.die") ,messageName, error)[那 I 那儿];
[0056]〈短信操作语〉:(发来I回复I发I发给我I给我I发过来I回复我I回我I回I我I未读最近I发给)[的];
[0057]〈量词>:一I 一条I 一个I 一下I个I 一条I条I这条I 一则;
[0058]〈消息名称〉:[的](短信I消息I信息I短消息I短信息留言);
[0059]〈倒叙助词>:说了啥I说了什么I讲了什么I大概什么意思I的大意I什么意思I讲了啥I的内容I内容I主要内容;
[0060]〈结尾礼貌〉:〈致谢〉I〈疑问助词〉I〈结尾请求〉;
[0061 ]〈致谢〉:[非常I十分I万分](谢谢I感谢)[〈疑问助词〉I你];
[0062]〈疑问助词〉:吗I呢I啊I咯I呀I么I吧I了 ;
[0063]〈结尾请求〉:((好不好I行不行I好不I行不I如何I可以)〈疑问助词>)I怎么样I好吗I行吗。
[0064]在上述语法文件中,每一段为一个表达式,用于解释一个非终结字符;其中,每一个表达式起始的在之前的被“〈>”标记的字符为非终结字符;没有被表达式表达的字符即为终结字符,例如上述中“短信I消息I信息I短消息I短信息I留言”等。
[0065]在每一个表达式中“〈>”表示必选字符,“[]”表示可选字符;“I”表示在其左右两边任选一字符等。
[0066]由上述语法文件可知,每一个非终结字符都会被解释,根据各个表达式之间的关联关系,即可以获得各个终结字符,也即各个词串之间的组织关系。
[0067]例如对于表达式:
[0068]〈人名消息操作I〉:[〈主观愿望>I〈祈使请求〉]〈操作请求X联系者名称〉[〈量词〉][〈短信操作语〉]〈消息名称〉[〈倒叙助词〉][〈结尾礼貌>];
[0069]以及,语法文件中对该表达式中每一个非终结符如“主观愿望”“祈使请求”等进行解释的表达式,如对“主观愿望”解析的表达式:
[0070]〈主观愿望>:[请][我I本人I本小姐][想I想要I要I我想I我要I我想要I我将要][你]&perm([〈立即〉],[给I为I帮I让][我I俺])[把]。
[0071]可以得到一个文本句子为“回复爸爸的一条最近信息”,其中终结符“爸爸”从“联系者名称”中的“data/BNFGrammar/Dic/AddressBook.die(预先构建的通讯录列表)”中获取。
[0072]需要说明的是,上述语法文件仅是为了方便理解示出的一种可能的实现方式,并不应限定为本发明的语法文件,在实际应用中,根据不同的实际需求,语法文件均不相同。
[0073]图2是本发明实施例提供的一种语料获取方法又一个实施例的流程图,该方法可以包括以下几个步骤:
[0074]201:获取针对任一类型的语法文件。
[0075]所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语。
[0076]202:将所述语法文件进行解析,构建用于表示各个词串之间的组织关系的构成有向图。
[0077]通过有向图可以直观和清晰地描述各个词串的组织关系。
[0078]如图3所示,示出了一种可能的有向图示意图。
[0079]203:在所述有向图中进行搜索,获得多个文本句子。
[0080]具体的,有向图包括起始节点以及终止节点,将从起始节点到终止节点的每一个路径节点对应的词串进行串联,即可以获得一文本句子。
[0081 ]其中,具体可以采用深度优先搜索算法在所述有向图中进行搜索。
[0082]例如对于图3所示的有向图,从起始节点开始按照箭头所指路径搜索,直至到达终止节点,即完成一次搜索。搜索经过的节点中的词串串联起来即形成一个文本句子,经过反复搜索,即可以得到多条句子。
[0083]根据图3所示有向图,至少可以获得如下文本句子:
[0084]请为我发一条短信;请为我发一条消息;请帮我发一条短信;请帮我发一条消息;
[0085]请为本人发一条短信;请为本人发一条消息;请帮本人发一条短信;请帮本人发一条消息;
[0086]请为本小姐发一条短信;请为本小姐发一条消息;请帮本小姐发一条短信;请帮本小姐发一条消息;
[0087]为我发一条短信;为我发一条消息;帮我发一条短信;帮我发一条消息;
[0088]为本人发一条短信;为本人发一条消息;帮本人发一条短信;帮本人发一条消息;
[0089]为本小姐发一条短信;为本小姐发一条消息;帮本小姐发一条短信;帮本小姐发一条消息;
[0090]请为我发短信;请帮我发短信;
[0091 ]请为本人发短信;请帮本人发短信;
[0092]请为本小姐发短信;请帮本小姐发短信;
[0093]为我发短信;帮我发短信;
[0094]为本人发短信;帮本人发短信;
[0095]为本小姐发短信;帮本小姐发短信;
[0096]为发一条短信;为发一条消息;帮发一条短信;帮发一条消息;
[0097]为发短信;帮发短信。
[0098]此外,由于构建获得多个文本句子并非全部是有效的,有些文本句子可能并不符合说话人习惯或者不符合语法规则。如上例中“为发一条短信”即不符合说话人习惯。
[0099]因此,该方法还可以包括:
[0100]204:检测每一文本句子是否为有效句子,如果是,执行步骤205,如果否,执行步骤206。
[0101 ] 205:将属于有效句子的文本句子作为语料,构建获得属于所述类型的语料库。
[0102]206:将不属于有效句子的文本句子删除。
[0103]其中,检测每一个文本句子是否为有效句子可以具体是检测每一个文本句子是否符合语法规则。
[0104]还可以是利用语言模型计算每一个文本句子的概率;
[0105]检测每一个文本句子的概率是否满足概率条件;在任一文本句子满足概率条件时,确定所述文本句子为有效句子。
[0106]其中,概率条件可以是概率大于概率阈值等。
[0107]语言模型用于计算一个句子的概率,通过计算不同词串组合的概率进行累加,SP可以获得文本句子的概率,从而可以将概率大于概率阈值的文本句子作为有效句子,符合说话人习惯。
[0108]通过本实施例中,可以自动获得多个文本句子。预先编译的语法文件是针对任一类型进行的,因此针对性更强,从而提高了语料获取的准确度,降低了语料获取难度,且对自动的文本句子进行检测,将不是有效句子的文本句子删除,从而可以进一步提高语料获取的准确度。
[0109]图4为本发明实施例提供的一种语料获取装置一个实施例的结构示意图,该装置可以包括:
[0110]获取模块401,用于获取针对任一类型的语法文件。
[0111]其中,所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语。
[0112]所述规范化标记语言可以是BNF或者ABNF,通过对所述语法文件解析,以获得文本句子。
[0113]语法文件中由多个由标记语言生成的表达式构成。通过各个表达式定义了词串之间的组织关系。
[0114]语法文件中的字符包括非终结字符以及终结字符,非终结字符可以被表达式表达,终结字符不被表达式表达。
[0115]本发明实施例中所述词串是指终结字符,由终结字符最终生成文本句子。
[0116]解析模块402,用于将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子。
[0117]构建模块403,用于将所述多个文本句子作为语料,构建获得属于所述类型的语料库。
[0118]通过将语法文件进行解析,可以按照组织关系,将词串进行任意组合,获得多个文本句子,从而即可以将获得的文本句子作为语料,构成获得语料库。
[0119]在本实施例中,通过针对任一类型预先编译的语法文件,并对其进行解析,可以获得多个文本句子。预先编译的语法文件是针对任一类型进行人工书写的,因此针对性更强,从而提高了语料获取的准确度,降低了获取特定类型的语料的难度,且语料自动生成,无需人工收集,保证了语料获取的效率。
[0120]图5为本发明实施例提供的一种语料获取装置又一个实施例的结构示意图,与图4所示实施例不同之处,该装置中:
[0121]解析模块402可以包括:
[0122]解析单元501,将所述语法文件进行解析,构建获得表示所述各个词串之间组织关系的有向图;
[0123]搜索单元502,在所述有向图中进行搜索,获得多个文本句子。
[0124]此外,由于构建获得多个文本句子并非全部是有效的,有些文本句子可能并不符合说话人习惯或者不符合语法规则。
[0125]因此,所述构建模块403可以包括:
[0126]检测单元503,用于检测每一文本句子是否为有效句子;
[0127]构建单元504,用于将属于有效句子的文本句子作为语料,构建获得语料库。
[0128]其中,检测每一个文本句子是否为有效句子可以具体是检测每一个文本句子是否符合语法规则。
[0129]还可以是利用语言模型计算每一个文本句子的概率,也即所述检测单元可以具体用于:
[0130]利用语言模型计算每一个文本句子的概率;
[0131]检测每一个文本句子的概率是否满足概率条件;在任一文本句子满足概率条件时,确定所述文本句子为有效句子。
[0132]其中,概率条件可以是概率大于概率阈值等。
[0133]语言模型用于计算一个句子的概率,通过计算不同词串组合的概率进行累加,SP可以获得文本句子的概率,从而可以将概率大于概率阈值的文本句子作为有效句子,符合说话人习惯。
[0134]通过本实施例中,可以自动获得多个文本句子。预先编译的语法文件是针对任一类型进行的,因此针对性更强,从而提高了语料获取的准确度,降低了语料获取难度,且对自动的文本句子进行检测,将不是有效句子的文本句子删除,从而可以进一步提高语料获取的准确度。
[0135]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0136]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0137]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种语料获取方法,其特征在于,包括: 获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语; 将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子; 将所述多个文本句子作为语料,构建获得属于所述类型的语料库。2.根据权利要求1所述的方法,其特征在于,将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子包括: 将所述语法文件进行解析,构建获得表示所述各个词串之间组织关系的有向图; 在所述有向图中进行搜索,获得多个文本句子。3.根据权利要求1所述的方法,其特征在于,所述将所述多个文本句子作为语料,构建获得语料库包括: 检测每一文本句子是否为有效句子; 将属于有效句子的文本句子作为语料,构建获得语料库。4.根据权利要求2所述的方法,其特征在于,所述在所述有向图中进行搜索,获得多个文本句子包括: 在所述有向图进行搜索,将从起始节点到终止节点的每一路径中的词串进行串联,获得一文本句子。5.根据权利要求3所述的方法,其特征在于,所述检测每一文本句子是否为有效句子包括: 利用语言模型计算每一个文本句子的概率; 检测每一个文本句子的概率是否满足概率条件;在任一文本句子满足概率条件时,确定所述文本句子为有效句子。6.一种语料获取装置,其特征在于,包括: 获取模块,用于获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语; 解析模块,用于将所述语法文件进行解析,按照所述组织关系将各个词串进行任意组合,获得多个文本句子; 构建模块,用于将所述多个文本句子作为语料,构建获得属于所述类型的语料库。7.根据权利要求6所述的装置,其特征在于,所述解析模块包括: 解析单元,将所述语法文件进行解析,构建获得表示所述各个词串之间组织关系的有向图; 搜索单元,在所述有向图中进行搜索,获得多个文本句子。8.根据权利要求6所述的装置,其特征在于,所述构建模块包括: 检测单元,用于检测每一文本句子是否为有效句子; 构建单元,用于将属于有效句子的文本句子作为语料,构建获得语料库。9.根据权利要求7所述的装置,其特征在于,所述搜索单元具体用于: 在所述有向图进行搜索,将从起始节点到终止节点的每一路径中的词串进行串联,获得一文本句子。10.根据权利要求8所述的装置,其特征在于,所述检测单元具体用于: 利用语言模型计算每一个文本句子的概率; 检测每一个文本句子的概率是否满足概率条件;在任一文本句子满足概率条件时,确定所述文本句子为有效句子。
【文档编号】G06F17/27GK105893348SQ201610195320
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】张俊博
【申请人】乐视控股(北京)有限公司, 乐视致新电子科技(天津)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1