汉语字词全息编码计算机输入方法及键盘的利记博彩app

文档序号:6411639阅读:420来源:国知局
专利名称:汉语字词全息编码计算机输入方法及键盘的利记博彩app
技术领域
本发明汉语字词全息编码计算机输入方法及键盘属于数据处理装置,特别是一种汉字编码方法及其所用键盘,能简便地把汉语字词输入计算机及其它类似设备和用做字词典等工具书的编目、索引,成为一种可供计算机和徒手使用的多功能编码。
汉字编码主要有音形两种。拼音编码,方法简单,但重码多,速度慢,认读要求高,不利推广;字形编码,没有认读要求,但部件(字根)量大,记忆难操作难,难于普及。部分音形码,未能兼二者之长,去二者之短,或规则繁难,或方法不规范,仍有很多不足。特别是在形码方案中,传统的汉字排检法都利用了“数笔画”这个区分度很高的因素,笔画查字法和部首查字法都是通过“数笔画”来查字的,而在众多的汉字编码方案中,这个重要因素却没有得到人们的充分利用,其实这是一种偏见,因为汉字的笔画很繁杂,少则一画,多则几十画,所以误认为无法用来编码。本人的两项专利CN 1064556A和CN1126854A公开了两种以汉字笔画为主要手段的编码方案,但在科学性、规范性、易学性上尚须进一步改进。
本发明的目的在于避免现有技术之不足,通过对CN1064556A和CN1126854A的进一步改进,充分利用汉字的所有基本因素——结构、笔画、笔形和拚音,以国家教委、语委,社科院制定的各种标准为编码原则,把复杂的字形分解成简单的部件,把繁多的部件抽象为简约的数码,13个数码双区排列,为每一个汉字兼容字形和形声两种输入方式,从而提供一种科学规范,简单实用,适合普及推广的汉字编码方法和键盘。
本发明汉字编码方法是每一个汉字用五码、四键、两种方式进行编码和输入,五码是每个汉字由一个形码(即结构码)和四个数码(即笔画、笔形码)或者三个数码+一个声码(即声母码)组成字符;四键是每个字最多打四键,因为形码隐含在键盘上,只是用来限定编码的输入区位,左右类从左区开始,非左右类从右区开始,不用击键;两种方式是每个字可同时用两种方法输入,一种是四数码组成的字形输入法,即每个字输入四个部件码,例湖--(左右)、3点、2横、3竖、4撇;另一种是三数码+一声母码组成的形声输入法,即每个字输入三个部件码和一个声母码,例湖--(左右)、3点、2横、3竖、H。
按以下规则编码A.字符的第一码是形码,即结构码,形码的选取是把所有汉字按结构分成两大类,左右类和非左右类,非左右类包括独体结构、上下结构、包围结构;结构分类标准按小学《语文》的要求。
B.字形输入法的第二、三、四、五码是四个数码,即笔画笔形码;数码的选取是根据部件的笔画数和起笔笔形(第一笔笔形)来确定,例“木”共4画,起笔是横,就记作“4横”。笔画数设定为2画、3画、4画三种,1画和5画以上(含5画)的部件都打2画。笔形设定为横(包括“提”)、竖、撇、点(包括“捺”)、折(包括横折、竖折、撇折)五种。笔画数和笔形共组合成13个数码2横、3横、4横、2竖、3竖、4竖、2撇、3撇、4撇、2点、3点、4点、折(折笔不计笔画数),对应所有的部件。编码时首先根据汉字的结构,对汉字进行拆分,拆分时以《新华字典》上的部首为基本部件,拆分出来的部件要相对完整,或者是部首,或者是独立的字形,被拆的字结构上要有明显、直观的分界,凡是穿插连结在一起的都作为一个部件,不再拆分,例大、木、未、本、米、耒、革、鹿、重--都是一个部件,不拆;寺--土、寸;侍--亻、土、寸;湖--氵、十、口、月;操--扌、口、口、口、木;然后根据汉字部件的多少分别取码,一部件字(独体字)按书写要求取笔画数+前四笔笔形构成四码,例木--4横(第一笔)、4竖(第二笔)、4撇(第三笔)、4点(第四笔);二部件和三部件字按各部件的书写顺序循环取足四码,例寺--(土)3横、(寸)3横、3竖(一部件“土”第二笔)、竖折(二部件第二笔);侍--2撇、3横、3横、2竖(一部件第二笔);四部件字按每部件的书写顺序各取一码,例湖--3点、2横、3竖、4撇;超过四部件的字取第一、二、三、末部件各一码,例操--3横、3竖、3竖、4横(末部件);取不足四码的部件用A键和L键补充成四码,例大--3横、3撇、3点、A。
C.形声输入法的第二、三、四、五码是三个数码+一个声码,三个数码的取法与字形输入法相同,一个声码取该字汉语拼音的声母,没有声母的取第一个字母,共26个声码Q、W、E、R、T、A、S、D、F、Z、X、C、ZH、Y、CH、SH、O、P、G、H、J、K、L、B、N、M。例湖--3点、2横、3竖、H(声码)或者H、3点、2横、3竖;阿--折、2横、3竖、A。
D.词语的编码是根据每一条词语的字数多少,分别取码组成词符,取码方法与字符相同。二字词每字取一个形码、两个数码,共6码,例坚持--(上下)、(刂-2竖)、(又-折)、(左右)、(扌-3横)、(土-3横);三字词每字取一个形码,前两个字各取一数码,第三字取两个数码,共7码,例清洁工--(左右)、(氵-3点)、(左右)、(氵-3点)、(独体)、(工-3横)、(工-3竖);四字词每字取一个形码、一个数码,共8码,例中国银行--(独体)、(中-4竖)、(包围)、(口-3竖)、(左右)、(钅-2撇)、(左右)、(彳-3撇);五字以上的词按“一、二、三、末”字各取一个形码和一个数码,例中国科学院--(独体)、(中-4竖)、(包围)、(口-3竖)、(左右)、(禾-2撇)、(左右)、(阝-折)。
本发明提供的键盘至少包括26个英文字母键和一个空格键,将26个字母键分为左右两个区,左区Q、W、E、R、T、A、S、D、F、Z、X、C、V13个字母键,右区Y、U、I、O、P、G、H、J、K、L、B、N、M13个字母键。键盘左区的每一个字母键对应一个数码键和一个声码键Q(4点、Q)、W(4撇、W)、E(4竖、E)、R(4横、R)、T(折、T)、A(3点、A)、S(3撇、S)、D(3竖、D)、F(3横、F)、Z(2点、Z)、X(2撇、X)、C(2竖、C)、V(2横、ZH);键盘右区的每一个字母键对应一个数码键和一个声码键Y(4横、Y)、U(4竖、CH) I(4撇、SH)、O(4点、O)、P(2点、P)、G(折、G)、H(3横、H)、J(3竖、J)、K(3撇、K)、L(3点、L)、B(2撇、B)、N(2横、N)、M(2竖、M)。左右两区各有13个数码键对称排列,左右两手各管一区,每手4指各对应一种笔形,中排3画是基准键也是高频键,上排是4画,下排是2画、5画键,也就是说,只要中上排没有的就打下排(右区2点键在上排)。
按以下方法输入a.13个数码正好是26个英文键的一半,将其在键盘上对称地排列成左右两个区。
b.输入汉字时,根据形码,左右结构的字从左区开始输入数码,非左右结构的字从右区开始输入数码,每输入一个数码轮换一区,即交叉输入,形码只用来限定区位,不用击键,是一种隐含码。例木--(独体)、4横(右、Y键)、4竖(左、E键)、4撇(右、I键)、4点(左、Q键);林--(左右)、4横(左、R键)、4横(右、Y键)、4竖(左、E键)、4竖(右、U键);侍--(左右)、2撇(左、X键)、3横(右、H键)、3横(左、F键)、2竖(右、M键);湖--(左右)、3点(左、A键)、2横(右、N键)、3竖(左、D键)、4撇(右、I键);大--(独体)、3横(右、H键)、3撇(左、S键)、3点(右、L键)、A键(左、补充键)。
c.26个声码除ZH对应V键、CH对应U、SH对应I键以外,其余声码均与键盘英文字母键对应,声码输入不分区;声码可以作首码,也可以作尾码。例木--M(首)、Y、E、I或Y、E、I、M(尾);湖--H、A、N、D或A、N、D、H。
d.输入词符与输入字符方法相同,只是隐含的形码更多,二字词6码四键,三字词7码四键,四字以上的词8码四键。例坚持--(上下)、M、T、(左右)、F、H;清洁工--(左右)、A、(左右)、A、(独体)、H、D;中国银行--(独体)、U、(包围)、J、(左右)、X、(左右)、S。
本发明的主要优点是(1)编码方法简单,把数百个部首概括为13个部件,不用背字根;把繁多的笔画简化为3种笔数,好认好记;把复杂的字形输入变成简单的数码输入,解决了字形编码的最大难题;把形声、字词、繁简多种方式,混编不同码,混打不换档,科学实用,简单易学。(2)键盘设计合理,双区键盘,对称排列,交叉输入,键频均恒,既快速省力,又能有效高散重码。(3)规则使用规范,字形的拆分,部件的设定,笔形的分类,声码的确定,所有规则均以国家教委、语委、《新华字典》、《汉字属性字典》的明确规定为依据,适合在学校或社会普及推广。(4)指标高用途广,本编码可兼容繁简汉字、词语15万条以上;初级码,平均码长2.7键,重码率1.6%;高级码,平均码长1.48键,重码率0.3%。本编码不仅可用于计算机输入排检汉字,也可用作邮政编码、条形码、外文译码、电报电话交换码等多领域,利用价值高,开发潜力大。(5)本发明已制成计算机软件,可以上机运行。经实际操作检验,三年级以上的小学生不用专门培训,通过自已看说明书练习,就能在一周之内比较熟练的掌握操作技术。


图1是汉字形码、数码在键盘上的分区排列。
附图2是汉字声码在键盘上的排列。
附图3是本发明汉字形码、数码、声码在一个实施例英文键盘上的排列。
下面结合附图对本发明做进一步的说明。
本编码方法的关键构思是(1)把一个汉字按照结构分解成简单的部件(结构的分类以小学教纲为准,部件的拆分以《新华字典》中的部首为基本集),用部件的笔画和笔形定义部件;(2)13个部件码对称排列,组成双区键盘;(3)每个汉字取四个部件码或三个部件码+一个声母码组成字符;(4)每条词语根据字数多少,取各字的一或二部件码,组成一个四码的词符;(5)输入字词编码时,按照结构分区交叉输入。
本发明与其它编码的不同之处在于,一般形码方案均以具体的部件为编码对象,然而汉字可分解成的部件不少于500个,这么多的部件不可能都容纳于26个标准键位上,只好压缩,例如五笔字型130个字根,五十字元法50个字元等。这样的编码必然要求操作者背字根,背键盘,带来种种困难。本方案与之不同之处是,它不以具体部件为编码对象,而是用部件的笔画数和起笔笔形来定义它,其实也就是常用的笔画检字法,例“艹”共3画,第一笔是横,就记作3横;“口”也是3画,第一笔是竖,就记作3竖;以此类推,氵--3点,日--4竖,禾--5撇,雨--8横,这种方法可使任何一个部件都有对应的编码,而且不用背,只要数笔画看笔形即可,并且繁体和简体部件不同码,例饣(3撇)--食(9撇)。但是部件笔画数悬殊,少则一画,多则十几画,如果按自然笔画数设码,一是数码太多键位容不下,二是数笔画太慢影响速度。我经过对46980个字词的数码测算,发现三画和四画的数码占70%以上,1画2画和5画以上的占不到30%,由此可以设定3画和4画各设一个数码,1画2画和5画以上的部件共用一个数码2画,这样不但解决了码位的问题,而且解决了数笔画的困难,因为4画以下的部件好数,一看即可认清,超过了4画不用数,打2画即可。也就是只需识记3画和4画,其它不用管都是2画。
根据《新华字典》规定,笔形共分五种横、竖、撇、点、折,五种笔形和三种笔画数共组合成13个笔画笔形码2横、3横、4横、2竖、3竖、4竖、2撇、3撇、4撇、2点、3点、4点、折(因为“折”起笔的部件较少,所以不数笔画,只设一码)。这13个编码虽然可以容纳所有的部件,但是有的编码之下同部件字(同部首字)太多,如“扌”和“艹”都是3横,“氵”和“宀、辶、广”都是3点,在这些编码之下各有几百个字,必然出现重码多。如何离散重码呢?分析可知,“扌”和“氵”多出现在左右结构的字里,“艹”和“宀、辶、门”多出现在非左右结构的字里,而汉字有60%以上是左右结构的,所以如果把汉字分成左右结构和非左右结构两种类型,各用13个编码输入,必能降低重码率;而且13个编码恰好是26个英文键的一半,将其对称的划分成左右两个区,如图。左右结构的字使用左区的13个编码,非左右结构的字(包括独体、上下、包围结构)使用右区的13个编码,例抚(扌--F),芜(艹--H);洛(氵--A),客、阁(宀、门--L),这样不仅笔画笔形相同的部件可以得到区分,而且同一个部件也可以不同码,例木--Y,林--R,森--Y。因为双区键盘的每一区有一个结构码,每输入一个字,虽然打四键,但是实际是五码,通过选择字的结构区位,在键盘上还隐含着一个结构码;如果是输入词组则每一个词符隐含着二至四个结构码,二字词有两个形码,例坚持--(右区)M、T、(左区)F、H;三字词有三个形码,例清洁工--(左区)A、(左区)A、(右区)H、D;中国银行--(右区)U、(右区)J、(左区)X、(左区)S。
按结构分区输入,可以有效的降低重码,但是如果左右结构的字符四码都打在左区,非左右结构的字符四码都打在右区,那么每输入一字必然是,左手击键右手停,右手击键左手停,方法不科学。改为分区交叉输入,即左右结构的字第一码在左区开始输入,第二码在右区,第三码在左区,第四码在右区;非左右结构的字与之相反,第一码从右区开始,每输一码,轮换一区,这样既不增加重码,又可双手交叉击键,不但省力而且速度快。
字符输入时,为了方便快速,采取三种办法第一增加形声输入法,单纯的四数码输入法,虽然简单方便,但重码稍多。改作三数码+一声码输入,虽然少取了一个部件码,因为汉字三部件以下的较多,四部件以上的较少,所以重码增加不多。而多取了一个声码,声码的区分度很高,不仅能大大降低重码,而且不增加操作难度,因为人们对汉语拼音较熟悉,特别是声母比韵母更好选取,26个声码又与键盘上的英文字母相对应,所以操作起来很容易。第二采取简码和分层输入法,高频字一键输入,常用字二键输入,次常用字三、四键输入,简码和全码分层设码,不兼容输入。第三本编码重码很少(最多不超过4个),对于重码采取在提示行显示,高频先见,空格默认第一码等措施,可以做到一、二级汉字无重码。
词符输入采取简化取码,二字词取每字的前两个数码,三字词的三个字按“一、一、二”取数码,四字词每字取一个数码,五字词按“一、二、三、末”字各取一数码。词符的取码方法与字符取码方法完全相同,但是,组成的词符却与字符不同,字、词相容但编码不同。
权利要求
1.一种汉语字词全息编码的计算机输入方法,它是把每一个汉字用五个编码组成字符,每一条词语用六至八码组成词符,最多打四键,用字形和形声两种方式进行输入的一种编码,其特征在于把汉字的结构概括成2个形码,隐含在键盘上,把汉字的部件概括成13个数码,对称排列在键盘上,把26个英文字母键对称划分为左右两个区,分别与形码和数码相对应,把汉语拼音的声母或第一个字母作为声码,26个声码与26个英文字母键相对应,既能利用形码和数码进行纯字形输入,又能利用形码、数码和声码进行形声输入,按以下规则编码A.字符的第一码都是形码,即结构码,把所有汉字按结构分成两大类,左右类和非左右类,共2个形码;B.字形输入法的第二、三、四、五码是四个数码,即笔画笔形码,用部件的笔画数+起笔笔形来定义部件,笔画数设定为2画、3画、4画三种,1画和5画以上的部件都打2画,笔形设定为横、竖、撇、点、折五种,三种笔画和五种笔形共组成13个数码2横、3横、4横、2竖、3竖、4竖、2撇、3撇、4撇、2点、3点、4点、折,对应所有的部件,编码时首先根据汉字的结构,以《新华字典》上的部首为基本部件,对汉字进行拆分,然后根据每个字部件多少,分别取足四个数码,一部件字取笔画数+前四笔笔形构成四码,二部件和三部件字按各部件的书写顺序循环取足四码,四部件字的每个部件各取一码,超过四部件的字取第一、二、三、末部件各一码,不足四笔的部件用A键和L键补充成四码;C.形声输入法的第二、三、四、五码是三个数码+一个声码,三个数码的取法与字形输入法相同,一个声码取该字汉语拼音的声母,没有声母的取第一个字母,共26个声码Q、W、E、R、T、A、S、D、F、Z、X、C、ZH、Y、C H、SH、O、P、G、H、J、K、L、B、N、M;D.词符的编码是根据每条词语的字数多少分别取码,取码方法与字符相同,二字词每个字取一个形码、两个数码,共6码,三字词,每个字取一个形码,前两个字各取一个数码,第三字取两个数码,共7码,四字词每字取一个形码和一个数码,共8码,五字以上的词取第一、二、三、末字各一个形码和一个数码,共8码;按以下方法输入a.13个数码正好是26个英文键的一半,将其在键盘上对称地排列成左右两个区,两个形码与两个区对应,左右结构对应左区,非左右结构对应右区;b.输入汉字时,根据形码,左右结构的字从左区开始输入数码,非左右结构的字从右区开始输入数码,每输入一个数码轮换一区,即交叉输入,形码只用来限定区位,不用击键,是一种隐含码;c.26个声码除ZH对应V键、CH对应U、SH对应I键以外,其余声码均与键盘英文字母键对应,声码输入不分区;d.输入词符与输入字符方法相同,只是隐含的形码更多,二字词6码四键,三字词7码四键,四字以上的词8码四键。
2.一种汉语字词全息编码的计算机输入键盘,其特征是键盘至少包括26个英文字母键和一个空格键,将26个字母键分为左右两个区,左区Q、W、E、R、T、A、S、D、F、Z、X、C、V13个字母键,右区Y、U、I、O、P、G、H、J、K、L、B、N、M13个字母键,键盘左区的每一个字母键对应一个数码键和一个声码键Q(4点、Q)、W(4撇、W)、E(4竖、E)、R(4横、R)、T(折、T)、A(3点、A)、S(3撇、S)、D(3竖、D)、F(3横、F)、Z(2点、Z)、X(2撇、X)、C(2竖、C)、V(2横、ZH),键盘右区的每一个字母键对应一个数码键和一个声码键Y(4横、Y)、U(4竖、CH)、I(4撇、SH)、O(4点、O)、P(2点、P)、G(折、G)、H(3横、H)、J(3竖、J)、K(3撇、K)、L(3点、L)、B(2撇、B)、N(2横、N)、M(2竖、M)。
全文摘要
本发明汉语字词全息编码计算机输入方法及键盘的关键构思,在于对汉字进行整体性抽象分析;把复杂的字形分解成简单的部件,把繁多的部件简括为13个数码;13个编码对称排列,双区键盘交叉输入,可对所有汉字、词语进行五码、四键、两方式输入;编码规则以相关的国家标准为依据,简明规范;字词、音形、繁简,多种方式兼容,混编不同码,混打不换档;容量大,重码少,操作易,效率高,是一种适合普及推广型汉字编码。
文档编号G06F3/023GK1161497SQ9710171
公开日1997年10月8日 申请日期1997年1月10日 优先权日1997年1月10日
发明者刘国桢 申请人:刘国桢
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1