计算机信息处理产品测试样本文件的生成方法

文档序号:6632820阅读:228来源:国知局
专利名称:计算机信息处理产品测试样本文件的生成方法
技术领域
本发明涉及一种计算机信息处理产品测试样本文件的生成方法,特别是指一种对计算机信息处理产品与中文编码字符集标准的符合程度进行测试时,测试样本文件的生成方法,属于计算机信息处理技术领域。
背景技术
文字信息在计算机信息处理产品中是以二进制编码形式存在的。因此,二进制编码和文字符号之间就有了对应关系。如果两个计算机信息处理产品各自采用的上述对应关系互不相同,这两个计算机信息处理产品之间的信息交换或信息共享就不能正常进行。中文编码字符集标准就是为了解决上述问题而制定的;换句话说,如果所有的计算机信息处理产品都遵循中文编码字符集标准对中文文字信息进行处理,就不会出现计算机信息处理产品之间不能正常进行信息交换或信息共享的问题。
为了验证一个计算机信息处理产品是否符合某一中文编码字符集标准,就需要对该计算机信息处理产品进行具体的测试。中文编码字符集标准涉及的计算机信息处理产品很多,包括计算机操作系统、计算及图形/图象处理产品、办公自动化产品、计算机软件开发工具、浏览器、电子邮件工具(E-mail)等等,而这些计算机信息处理产品又会运行于各不相同的计算机操作系统中,例如Unix、Linux、OS2、Solaris、Windows等等。要在每个操作系统上进行针对各种计算机信息处理产品的测试是非常复杂的工作。
以往,也有一些检测计算机信息处理产品是否符合中文标准的检测方法,这些方法的主要特点是将汉字及符号显示出来,与中文字库进行比较,而没有真正对相应计算机信息处理产品是否符合中文字符编码标准进行检测;因此,从1980年第一个中文编码字符集标准发布以来,始终没有这样的一种检测手段来满足对计算机信息处理产品是否符合中文编码字符集标准的需求。

发明内容
本发明的主要目的是提供一种计算机信息处理产品测试样本文件的生成方法,将符合中文编码字符集标准的编码写入到测试样本文件之中,为所述计算机信息处理产品对于中文编码字符集标准地符合程度的测试提供测试样本数据。
本发明通过如下的技术方案解决实现本发明的目的根据中文编码字符集标准,将用于检测计算机信息处理产品的样本字符所对应的中文字符编码经过处理后,写入到测试样本文件之中;具体过程如下步骤1建立一个空的测试样本文件;步骤2按照中文编码字符集标准,对要写入到所述测试样本文件的中文编码的每个字节逐个与其取值范围进行比较;步骤3如果该字节的取值不符合所述中文编码字符集标准,执行步骤5;步骤4如果该字节的取值符合所述中文编码字符集标准,则将该字节写入到所述测试样本文件中;步骤5取下一个字节后,重复执行步骤2-5,直到最后一字节处理完毕。
为了使测试样本文件能够广泛地适应对所有的计算机信息处理产品的测试,还可以采用为计算机信息处理产品提供运行支持的计算机操作系统所能处理的文件格式建立。
本发明提供的方法,将符合中文编码字符集标准的编码写入到测试样本文件之中,为所述计算机信息处理产品对于中文编码字符集标准地符合程度的测试提供测试样本数据;改变了以往检测计算机信息处理产品时与中文字库进行比较的测试手段,提供了真正对符合计算机信息处理产品测试的测试数据源。


图1为本发明单字节编码空间测试样本文件生成流程图;图2为本发明双字节编码空间测试样本文件生成流程图;图3为本发明四字节编码空间测试样本文件生成流程图。
具体实施例方式
以下结合附图和具体的实施例对本发明作进一步的详细说明中文编码字符集标准涉及的计算机信息处理产品很多,包括操作系统、图形图象处理、办公自动化、开发工具、浏览器、E-mail等等,而这些计算机信息处理产品又会运行在不同的操作系统上,例如Unix、Linux、OS2、Solaris、Windows等。因此,要在每种操作系统上建立一套针对各种计算机信息处理产品的测试程序是非常复杂的工作。但是,由于输入过程不在编码标准的测试范围之内,那么,最方便的输入方法就是直接将二进制编码提交给计算机信息处理产品。文本文件的存储格式完全是字符的二进制编码,而且在所有计算机信息处理产品、操作系统中的解析是相同的。因此,可以把测试样本文件构造为文本文件格式(TXT格式)。中文编码字符集标准中,每个字节的取值范围是有界的,所有字符的编码位置在整个编码空间中形成多块空间,每块空间中,中文字符的编码是连续的。在生成测试样本文件时,只要控制好每个字节的取值范围就可以得到完整的测试样本字符编码的集合了。这里所说的取值范围由采用的中文编码字符集标准,例如GB18030-2000中文编码字符集标准,规定。
以GB18030-2000中文编码字符集标准为例,生成具有该标准中所有字符编码的测试样本文件时,可以采用一计算机软件开发一测试样本文件的自动生成程序。该程序的流程参见图1。
首先,需要建立一个空的测试样本文件;然后,按照中文编码字符集标准,对要写入到所述测试样本文件的中文编码的每个字节逐个与其取值范围进行比较;如果该字节的取值符合所述中文编码字符集标准,则将该字节写入到所述测试样本文件中;如果该字节的取值不符合所述中文编码字符集标准,则取下一个字节,重复执行步骤2-5,直到最后一字节处理完毕。
由于GB18030-2000中文编码字符集标准是一个单、双、四字节混合的编码标准,为了进一步验证计算机信息处理产品与GB18030-2000中文编码字符集标准之间的符合程度,还可以将测试样本文件生成为双、四字节混合的测试样本文件,各字节编码的字符数量按GB18030-2000中文编码字符集标准中各字节编码字符数量的比例生成。由于图1所示的处理只是生成单字节中文编码字符的测试样本文件处理过程,对于双字节、四字节中文编码字符的测试样本文件的处理而言,其过程与生成单字节中文编码字符的测试样本文件处理过程没有太大的差别,只是按照相应的字节数量,增加对各个字节的取值范围的比较过程即可,具体参见图2、3。
在测试计算机信息处理产品时,对其所述测试样本文件中的字符编码进行简单的编辑操作,例如剪切、粘贴、删除、插入。如果这些编辑操作的结果不会造成测试样本文件中的文本混乱,则上述的测试说明被测试计算机信息处理产品符合GB18030-2000中文编码字符集标准的要求。
具体的一个测试过程实例如下采用包含15个均为TXT格式的测试样本文件,分别对应GB18030-2000中文编码字符集标准中的双字节字符1至5区、三个用户自定义区、四字节汉字区、单字节区、蒙文区、藏文区、彝文区、维文区和单双四字节混排测试样本;字符的排列格式与顺序与GB18030-2000中文编码字符集标准完全一致。测试过程中,在被测的计算机信息处理产品中依次显示各个测试样本字符,并与GB18030-2000中文编码字符集标准进行比较。
一般的操作系统和办公软件都提供有字处理工具,因此,能很方便地显示测试样本。而对于类似于计算机开发工具、图形图像处理软件、网络传输软件等,则可以通过函数、API等手段开发出支持GB18030-2000中文编码字符集标准的应用程序,使这些被测计算机信息处理产品的界面、编辑区等处可以正确地显示或处理GB18030-2000中文编码字符集标准的字符。
由于计算机信息处理产品输出的字符显示结果是图形,由点阵字或是曲线字表示。而GB18030-2000中文编码字符集标准是印刷品。因此,将上述的测试样本字符集分成若干个子集,采用人工方式进行与GB18030-2000中文编码字符集标准的比较。由于本发明提供了上述的测试样本文件的生成方法,因此,使得这种测试与标准的吻合度更高。
最后应说明的是以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或者等同替换;而一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
权利要求
1.一种计算机信息处理产品测试样本文件的生成方法,其特征在于根据中文编码字符集标准,将用于检测计算机信息处理产品的样本字符所对应的中文字符编码经过处理后,写入到测试样本文件之中;具体过程如下步骤1建立一个空的测试样本文件;步骤2按照中文编码字符集标准,对要写入到所述测试样本文件的中文编码的每个字节逐个与其取值范围进行比较;步骤3如果该字节的取值不符合所述中文编码字符集标准,即不在所述的取值范围之内,执行步骤5;步骤4如果该字节的取值符合所述中文编码字符集标准,则将该字节写入到所述测试样本文件中;步骤5取下一个字节,重复执行步骤2-5,直到最后一个字节处理完毕。
2.根据权利要求1所述的方法,其特征在于所述测试样本文件采用所述计算机信息处理产品运行的计算机操作系统所支持的文件格式建立。
3.根据权利要求1所述的方法,其特征在于所述的取值范围由所述的中文编码字符集标准确定。
全文摘要
本发明公开了一种计算机信息处理产品测试样本文件的生成方法,根据中文编码字符集标准,将用于检测计算机信息处理产品的样本字符所对应的中文字符编码经过处理后,写入到测试样本文件之中;本发明提供的方法,将符合中文编码字符集标准的编码写入到测试样本文件之中,为所述计算机信息处理产品对于中文编码字符集标准地符合程度的测试提供测试样本数据;改变了以往检测计算机信息处理产品时与中文字库进行比较的测试手段,提供了真正对符合计算机信息处理产品测试的测试数据源。
文档编号G06F11/36GK1912847SQ200510087778
公开日2007年2月14日 申请日期2005年8月8日 优先权日2005年8月8日
发明者王立建, 吴志刚, 王欣 申请人:中国电子技术标准化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1