普及型无重码汉字部首编码输入方法

文档序号:6405208阅读:1165来源:国知局
专利名称:普及型无重码汉字部首编码输入方法
技术领域
本发明涉及中文信息处理系统中的汉字编码输入方法。是由字母和号码组成的部首音形编码。它用于开发、制造电子计算机汉字信息处理的系统硬件、软件、软盘、汉卡、硬导盘系统、汉字终端机、打字机、电传机、中外文翻译机,以及用于电报码、汉字排版系统、编字词典、图书资料及其目录索引等。
目前已有四百多种汉字编码方案,有的码长、有的重码较多、有的较难掌握使用,有的根本无法记住。在即将普及电脑的时代,还没有一个码长较短、重码较少的普及型汉字编码方案,尤其还没有一个无重码的和高效率输入的普及型汉字编码方案。如“王安字根1-99号,控制数十个,每次击键一律六次。天龙字根150多个,每次最多击键五次。二者规律杂乱,科学意义较差。”又如中外有名的王永民《五笔字型输入法》,分横(一)、竖(丨)、撇(丿)、捺(
)、折(乙五类,25组字根,用25个英文字母分别代表同一起笔的各个字根,如果按每编码四个字母计算,可编三十九万零六百二十五个码,实编6763个汉字,则电脑中还有三十八万三千八百六十二个空码可供利用。它虽然有比较科学的排列和组合;但不易掌握和使用;又根据王永明同志总编的《中文电脑》杂志1986年创刊号第33页刊载“(6)、四级码由四个字母组成的外码。由五笔字型中所有码长为4的汉字的全码和全部词汇码组成,大约有6000个汉字和2400条词汇具有四级码”。由此可见,五笔字型中只有700多个汉字是二、三级码。根据上述二、三、四级码的数量计算,五笔字型汉字输入法的平均码长是3.8码左右,其码长是不能算短的。其重码究竟多少呢?尚无材料说明,又中国有名的《五笔划汉字输入法》,其最大的特点和优点是普及型的,但重码太多,一个码几十个字的情况也是大量的,这必然会增加大量的选字时间,并且其码长也是较长的,基本上或大部分字都是由五个码组成(见《中文电脑》杂志1986年创刊号第7、12、13、14、15、18、19、33页)。
目前汉字编码的状况限制了对中文电脑的普及和广泛的应用。对汉字编码输入效率的提高也有待于解决。根据中文电脑的发展,和全国将来电子计算机的普及,必须有一个相适用的普及型的和码长较短的汉字编码输入方案,又根据四化建设的发展、需要和要求,也应有一个相适应的在电传机使用的,无重码的普及型电报码,使收电报的广大群众,收到电报后,不需要邮局系统翻译,就能知道电报的全内容。
本发明的目的是要提供一个普及型、无重码码长较短、编码输入效率高的汉字编码输入方法,为中文电脑的普及打开大门,铺平道路,并使此种汉字编码系统与软件系统、字词系统、图书资料及其目录索引系统有机的、密切的联系起来,使将来所编纂的字词典所收的字、词语全部能配有本发明的普及型无重码汉字部首编码。字词典的正文及检字表、检词表的序列及索引与编码一致。凡会查字典的人,就会使用编码在电子计算机、电脑打字机上输入汉字。
以下叙述普及型无重码汉字部首编码输入方法的实施方法一、汉字结构的分析任何一个汉字都是由不同的部首构成的。按部首的笔画数量分,可分为单笔部首和复笔部首,任何一个复笔部又是由不同的单笔部首所构成的;按部首的性质分,可分为字型部首和非字型部首,非字型部首又分单笔非字型部首和非字型复笔部首。
任何一个由几个部首构成的汉字,都可以按其所结构的部首进行分解,这对汉字实行按汉字部首编码,提供了实际的和理论的依据。对汉字实行按汉字部首编码的过程就是对汉字部首结构的分解过程。
对结构多种多样的、繁杂的汉字,可归纳为六种结构字型1、全部由非字型单笔部首结构字型。如乃(ㄋ丿),九(丿乙),义(丶丿
),及(丿
),五(一丨一)2、非字型单笔部首和非字型复笔部首结构字型,如开(一廾),仇(亻丿乙),沈(氵冖丿乚),托(扌丿一乚),艾(艹丿
);
3、非字型单笔型部首和字型部首结构字型,如未(二丨人),末(一木),戋(一戈),夫(一大),契(一二丨刀大);
4、非字型复笔部首和字型部首结构字型。如奏(二人),党(口儿),券(刀),番(采田)案(宀女木);
5、全部由字型部首结构字型。如天(二人),役(彳殳),思(田心),想(木目心),科(禾斗);
6、字型部首字型,如士、火、木、音、鼻。
二、汉字部首及部首代码的规定
(一)、以《新华字典》和《现代汉语词典》所规定的189个部首为基础;并根据汉字笔画笔形的实际情况和编码的需要,又参考《辞海》规定的部首,对汉字部首进行一些改并和增加。
1、将非字型单笔部首折(乙)分为单折(乛)和复折(乙)两个非字型单笔部首。
凡是一个转折的笔形均为单折(乛);凡是两个以上转折的笔形均为复折(乙)。
2、增加挑(
)、提(
)、捺(
)三个非字型单笔部首。
凡是两点水(冫)和三点水(氵)的末画笔形均为挑(
)3、增加之、亡、匕三个字型部首;增加、、、
、、癶六个非字型复笔部首。
4、将毋(母)、肀(肀聿)部首分为两个部首。即分为毋和母、聿和肀(
)部首。
5、将曰(曰)和日、礻和衣、攵和文、辶(
)和之部首合并。
(二)、汉字单笔部首(即九笔形码和非字型复笔部首笔形码)的规定。
横(一)1,竖(丨)2,撇(丿)3,点(丶)4、单折
(乛)5,挑(
)6,提(
)7,捺(
)8,复折(乙)9。
非字型单笔部首以其单笔形为九笔形码;非字型复笔部首以其部首第一画或末画为九笔形码。如是2或5,是1或8,是4或8,番是3或1,廴是9或8,阝(左右)是9或2,宀是4或5……等。
本汉字编码法是采用非字型部首第一画为九笔形码。
(三)、部滓袈氲墓娑 字型部首字,以其部首字的汉语拼音第一个字母为部首音码如土是T,口是K,禾是H,二是E,彳是C,爿(丬)是P,殳是S,幺是Y,母是M,豸是Z等。
(四)、部首特定码的规定凡是部首音码中不使用的或极少使用的字母,和部首笔形码中不使用的号码(数码),均可作为任何复笔部首的特定码。根据本编码法使用字母和号码(数码)的情况,特规定以下字母和号码(数码),为一些部首的特定码。规定如下①是亻、6是冫和氵、7是扌、8是艹、A是山和厶,0是月和人、I是言(讠)、U是竹()、V是木部首的特定码。
附图
列举了部首音码,九笔形码和特定码一览表。
(五)、部首或汉字区别码的规定字型部首字或汉字以其第一画和末画的笔形码为区别码;或以字型部首字或汉字第一、二画或其最末两画的笔形码为区别码。如石字的区别码是1和1,或1和3,或5和1;
用字的区别码是3和2,或3和9,或1和2。
本汉字编码法是采用第一种区别码。
(六)、万能码的规定凡是汉字编码中不使用的字母和号码(数码),以及汉字编码中的末码(最后一个编码)中不使用的字母和号码(数码),都可作为万能码使用。
万能码使用方法万能码分笔画万能码和部首万能码。6、7为笔画万能码,①、U、I为部首万能码。
凡是重码其重码字的笔画数少的加一个6笔画万能码。较少笔画的字加7笔画万能码。如字和学是重码,字加6即4Z16(字),学加7即4Z17(学)。
用笔画万能解决重码后,原则上规定①是字型部首万能码,U是非字型部首万能码。即重码的字第一个部首是字型部首时加①字型部首万能码。重码字的第一部首是非字型部首时加U非字型部首万能码。①、U、I三个部首万能码可以同时使用字型部首或非字型部首字中的重码。
万能码的发现和发明,对解决汉字编码中的一切重码问题,找到一条新的途征和方法。
三、汉字部首编码输入方法。
1、按照国家标准字形和正确书写汉字的顺序,取汉字部首的音码、九笔形码或特定码实施编码。它是一种由字母和号码混合组成的部首音形码。
汉字部首编码输入的过程,就是对汉字部首结构的分解过程。
2、笔顺从上到下,从左到右、从外到内(如向字)、从内到外(凶字)、先横后竖、先横后撇、先撇后横(如长字),先里头后封口、先中间后两边(如义字),先两边后中间(如坐字)为原则;对四个部首以上结构的汉字,其上、中、下部首,规定其书写顺序是先中间后两边,如兜字先写白、率字先写亠、幺、樊字先写×、×,蠃嬴羸赢字先写虫、女、羊和贝字;又规定兆字先写撇、点,非字先写竖、横,万字先写横、复折,及字先写撇、复折,爿字先写单折、竖、乃字先写复折、撇,卵字先写撇、单折、点,最后写点,义字先写点,撇,耳字先写横、竖、竖、将字先写点,提,鸟字先写撇,复折,肃字最后写撇,点,撇字先写竖、点,巫字先写横、竖。
3、号码和字母排列的顺序是①-9-A-Z。
(一)、汉字三部首编码输入方法。有三种方法1、取前两个部首和末部首;
2、或取前一个部首和末两个部首;
3、或取前三个部首的音码、九笔形码或特定码实施编码。
一个汉字以每个部首按一个音码、九笔形码或特定码编码输入。
字型部首字加两个区别码。区别码是字型部首字的第一画和末画,或前两画或末两画九笔形码。
两个复笔部首结构的汉字,增加或不增加一个区别码或万能码。
编码举例如下(第一种编码输入方法)共(81B)、产(L3)、党(2KE)。社(ST),会(OEA)、主(4W)、义(438)、科(HD)、学(4Z)、的(B34)、春(1R)天(EO)、好(NZ)。破(SP)、除(9OX)、迷(MZ)、信(①I),解(JDN)、放(FW),思(TX)、想(VMX)。严(1Y3)、格(V3K)、禁(VVS)、止(Z21)、酒(6Y)、后(33K),开(11)、车(C12)。过(CZ)、马(M51)、路(Z3K)、要(XN)、注(64W)、意(LRX)、安(4N)、全(OW)。实(44D)、践(Z1G)、是(R10)、检(V01)、验(M01)、真(S2B)、理(WL)、的(B34)、唯(KZ)、一(111)、标(VS)、准(6Z)。
上述编码字例48个字中,有40个字是由二个或三个部首构成的。国标6763个字中由二个部首构成的字有1217个,三个部首构成的字有2346个。一级字绝大多数。
(二)、汉字四部首编码输入方法。有两种方法。
1、取前三个部首和末部首,2、或取前两个部首或末两个部首的音码、九笔形码或特定码实施编码。一个汉字以每个部首按一个音码,九笔形码或特定码编码输入。
字型部首字加两个区别码。区别码是字型部首字的第一画和末画,或前两画或末两画九笔形码。
两个复笔部首结构的汉字,增加一个区别码。
凡是重码字增加一个万能码,以解决全部重码。
(三)、词语(包括人名、地名、图书资料、文件名称等)部首简易编码输入方法。无重码。
取词语每字(规定取用的字数)的第一部首或末部首的音码、九笔形码或特定码编码输入(此种方法是第一种方法)。
第二种词语部首简易编码输入方法。此种方法与前面所述的编码方法相同,只是规定的特定码不同。即只规定①是亻、6是冫氵、7是扌、8是艹部首的特定码。凡是山、厶、月、人、竹()、木、言(讠)……等字型部首,均以其字型部首字的第一个拼音字母为音码。
编码举例如下1、人名编三至五码、地名按地名字数编码。如郭沫若(468)、刘胡兰(WSB)、黄继光(85X),邱少云(3XE)、罗盛教(2CT)。
北京(24)、上海(B6)、天津(E6)、南京(S4)。
2、图书资料、文书档案名称编三至六码。如红楼梦(5VV或5MM)、三国演义(1264)、论新政协(IL1S或YL1S)、屠格涅夫传(SV61①或SM61①)、周恩来选集(321NZ)。
3、任何一条不超过2000字的词语编3-6码,任何一本图书的全部内容编5-8码。《辞海》全书1342800字也只编5-8码。如果需要查《辞海》中任何一个字或任何一条词语时,只需击键6至8次即可全部输出。
四、优点及其积极意义和效果1、以每个部首按一个码编码输入,可一目了然,非常简便,编码输入效率高;
2、由于全国小学都在普及汉语拼音和教授部首检字法,所以用部首音码和九笔形码编码输入,不需死记,见部首即知其汉字的编码,编码输入效率高;
3、无重码。汉字编码无重码的情况,是国际上独一无二的。它可作为电报码使用,能成为广大群众都能掌握的大众电报码,收电报人不需要邮局翻译即如电报的内容;汉字输入时完全可以盲打,不需要选字,节省了大量的选字时间,词语部首简易编码输入法也无重码。
本编码输入方法是应用了26个字母和10个号码,如果按每编码四个字母和号码计算,可以编一百六十七万九千六百一十六个编码,实编6763个汉字,则电脑中还有一百六十七万三千八百五十三个空码可供利用,这就是本编码输入方法无重码的基本答案。
4、码长短。汉字三部首编码输入法,平均码长只有2.81码,汉字四部首编码输入法,平均码长3.4码。词语部首简易编码输入法,如一本1342800字的《辞海》全书的内容只用5-8个代码;
5、音码、九笔形码和特定码是易懂、易学、易记、易编和易用,它为中文电脑的普及打开了大门,铺平了道路;
如易记,A像座山,规定A为山和厶部首的特定码,山和厶拼音第一个字母是相同的;月亮是圆的,人赏月亮,规定O是月和人部首的特定码;言字的简化是讠,与英文字母I的小写i是相似的,规定I是言(讠)部首的特定码,冫和氵部首含有挑( 6)的笔形,规定6是冫和氵部首的特定码,扌部首含有提( 7)笔形,并且大家习惯称扌为提手旁,规定7是扌部首的特定码;亻是单人旁,单人可说成一个人,人与①(零)的说话音是相似的,规定①是亻部首的特定码;剩下8是艹部首特定码,U是竹()部首特定码和V是木部首特定码稍要死记,但也是易记的,把这三者记住是草、竹子和树木。
6、汉字部首检字法已有1800多年历史,但至今尚未统一,《新华字典》分189个部首,《辞源》和《康熙字典》分214个部首,《辞海》分250个部首,字词典中大约有700多个汉字分别列入两个部首内,有的列入三个部首内,这些汉字究竟应按什么部首查,实在令人难以捉模不定,所以《现代汉语词典》排列难字390个,《辞源》排列难检字576个。采用汉字部首编码,可把第一部首相同的汉字全部的集中在一起,如果编成字词典的检字表时,检字、检词就非常简便了。并且继承了祖国的文化遗产;同时,对部首检字法进行了重大的改革,把汉字的部首按26个字母和10个号码分为21个字音部首,9个笔形部首和9个特定部首,特定部首中有三个部首与九笔形部首的代号6,7,8是同一代码部首。
8、不需另设键盘。
9、用途非常广泛。可用于开发、制造电子计算机汉字信息处理的系统硬件、软件、软盘、汉卡、导硬盘、汉字终端机、电脑打字机、电传机和中外文翻译机,还可用于电报码、汉字排版系统、编字词典、人名、地名、图书资料及其目录索引等。
权利要求
1.一种用于开发、制造电子计算机汉字信息处理的系统软件、汉卡、终端机,电传机、打字机、中外文翻译机、电报码、汉字排版系统;以及编字词典、图书资料及其目录索引的普及型无重码汉字部首编码输入方法,是由字母和号码组成的混合编码;其特征在于三、四部首编码法是由汉字部首的音码、九笔形码或特定码组成的部首音形码;一个汉字以每个部首按一个音码、九笔形码或特定码实施编码输入,词语部首简易编码法是由词语每字(规定取用的字数)第一部首或末部首的音码、九笔形码或特定码组成的部首音形码;三、四部首编码法对字型部首字增加两个区别码或万能码,对两个复笔部首结构的汉字,增加或不增加一个区别码或万能码,对四部首编码中的重码增加一个万能码。
2.按权利要求1所述的汉字部首编码输入方法中音码,其特征在于字型部首字以其字型部首字的拼音第一个字母为音码。
3.按权权要求1所述的汉字部首编码中九笔形码,其特征在于汉字单笔部首以其单笔形横(一)1、竖(丨)2、撇(丿)3、点(丶)4、单折(乛)5、挑(
)6、提(
)7、捺(
)8、复折(乙)9为九笔形码,非字型复笔部首以其部首第一画或末画为九笔形码。
4.按权利要求1所述的汉字部首编码输入方法中所定义的特定码,其特征在于凡是部首音码中不使用的、或极少使用的字母,和部首笔形码中不使用的号码,均可作为任何复笔部首的特定码。
5.按权利要求1所述的汉字部首编码输入方法中所定义的区别码,其特征在于字型部首字或汉字以其第一画和末画的笔形码为区别码;或以字型部首字或汉字第一、二画或其最末两画的笔形码为区别码。
6.按权利要求1所述的汉字部首编码输入方法中所定义的万能码,其特征在于凡是汉字编码中不使用的字母和号码;以及汉字编码中的末码中不使用的字母和号码,都可作为万能码。
全文摘要
一种普及型无重码汉字部首编码输入方法,由字母和号码组成的部首音形码。一个汉字,以每个部首按一个部首音码、九笔形码或特定码实施编码输入,一目了然,不需死记,易懂、易学、易记、易编和易用。三部首法有少量重码,平均码长2.81码。四部首法无重码,平均码长3.4码。词语部首法无重码,每条词语三至六码。不需另设键盘。可用于电报码,编字词典、图书资料;开发与制造软件、终端机、打字机和电传机等。
文档编号G06F3/023GK1034279SQ8810180
公开日1989年7月26日 申请日期1988年4月8日 优先权日1988年4月8日
发明者郭飞凤 申请人:郭飞凤
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1