一种数据依赖的数据质量检测方法及装置的制造方法_3

文档序号:9922089阅读:来源:国知局
待检测数据的树形结构。
[0097]本单元利用文件分析单元2中已经确定的所述字段名称及其对应级别信息,对待检测数据进行对应,根据参照文件中各字段的名称及级别,以及与其对应的待检测数据中的字段进行对应,确定待检测字段和级别,也即是确定所述待检测数据需要检测的字段与参照级别的映射。
[0098]在此基础上,组织所述待检测数据的树形结构。
[0099]如图10所示,其为本发明数据依赖的数据质量检测装置中数据依赖规则定义单元的结构图;其中,所述数据依赖规则定义单元3包括:
[0100]映射模块31,接收待检测数据,接收所述参照文件的所述字段名称及其对应级别信息,确定所述待检测数据需要检测的字段与参照级别的映射;
[0101]本模块中,根据字段名称、相似度等确定参照文件的所述字段名称和待检测数据中需要检测的字段的对应关系,再根据对应关系以及参照文件中字段的级别确定待检测数据中需要检测的字段的级别,这样就确定了所述待检测数据需要检测的字段与参照级别的映射。
[0102]树形结构模块32,对所述待检测数据检测字段的数据值进行分析,输出每个字段的不同值及对应的所有记录编号,并按照参照级别将各字段的值同样组织成待检测字段的树形结构。
[0103]每个记录编号都与各个待检测字段的某一值一一对应,即每个记录编号对应待检测字段一的某一值,同时对应待检测字段二的某一值,同时对应其余所有待检测字段的某一值。通过记录编号,可以在检测到错误数据后迅速定位错误数据。
[0104]组织成的待检测字段的树形结构中每个节点均包括但不限于以下属性之一:
[0105]值,为代表对应层级的一个值;
[0106]记录编号,该节点及其所有上层节点代表的值对应的所有记录编号;
[0107]标记,标明该值在对应级别的对应父节点下是否存在的符号;一般以O为未标记或不存在,以I为存在。
[0108]这样,标记用于对正确或错误数据进行标注,记录编号用于迅速定位错误数据,以提高整体速度。
[0109]数据依赖规则检查单元4,遍历参照文件的树形结构,在待检测字段的树形结构对应位置上查找值,并做出标记。
[0110]遍历参照文件的树形结构,若参照文件的树形结构上存在的值,在待检测字段的树形结构对应级别的对应父节点下不存在,则标记为不存在(O);若参照文件的树形结构上存在的值,在待检测字段的树形结构对应级别的对应父节点下存在,则标记为存在(I);若参照文件的树形结构上不存在的值,在待检测字段的树形结构上存在,则标记为不存在
(O)。
[0111]本单元中,优选使用宽度优先便利法对参照文件的树形结构进行遍历,以提高遍历速度和效率。
[0112]若参照文件的树形结构上存在的值,在待检测字段的树形结构对应级别的对应父节点下不存在,则将对应值及其子节点均标记为不存在;这样减少了需要对比的待检测字段的树形结构需要对照的节点数,进一步提高了速度和效率。
[0113]这样,通过单元2、3、4,可以在数据依赖检查过程中准确定位错误的发生源;在确定错误的发生源的情况下,自然也确定了错误发生在依赖的左部还是右部;本发明利用树形结构的遍历,避免了分别进行交叉对比,在待检测字段超过两个或待检测数据量较大时不但能方便的定位错误位置,还能大大提高检测速度和效率;本发明利用树形结构的遍历,只对不同值查询一次参照文件,不同于一般方案上的需要针对每一条记录重复查询参照文件的做法,也提高了数据质量检测的效率和速度。
[0114]另外,本发明尤其适合于多字段的数据依赖检测,无需事先定义查询字段和检测字段。
[0115]检测信息处理单元5,再次遍历待检测字段的树形结构,根据所述标记输出错误信息。
[0116]本单元为输出单元,其作为一可添加单元对本装置进行完善,必要时也可删除本单元。
[0117]本单元中,优选使用宽度优先便利法对参照文件的树形结构进行遍历,以提高遍历速度和效率。
[0118]实施例四
[0119]如上述所述的数据依赖的数据质量检测装置,本实施例与其不同之处在于,如图11本发明数据依赖的数据质量检测装置实施例四的结构图所示,所述数据质量检测装置还包括
[0120]格式转换单元I,将待输入的外部参照文件或待检测数据转换为要求格式。
[0121]这样,将不同格式的文件进行转换,提高了此方法对不同文件格式的适应性。
[0122]以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
【主权项】
1.一种数据依赖的数据质量检测方法,其特征在于,包括: 步骤b,分析外部参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构; 步骤C,接收待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构;步骤d,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出标记。2.根据权利要求1所述的数据质量检测方法,其特征在于,还包括: 步骤e,再次遍历所述待检测字段的树形结构,根据所述标记输出错误信息。3.根据权利要求2所述的数据质量检测方法,其特征在于,还包括:步骤a,将待输入的所述参照文件或所述待检测数据转换为要求格式;所述步骤a在所述步骤b之前。4.根据权利要求1或2或3所述的数据质量检测方法,其特征在于,所述参照文件的树形结构自顶向下对应字段的不同值个数递增。5.根据权利要求1或2或3所述的数据质量检测方法,其特征在于, 所述步骤c包括: 步骤Cl,接收所述待检测数据,接收所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射; 步骤c2,对所述待检测字段的数据值进行分析,输出每个字段的不同值及对应的所有记录编号,并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。6.根据权利要求2或3所述的数据质量检测方法,其特征在于,所述遍历为宽度优先遍历,以提高遍历速度。7.—种与权利要求1-6中任一所述的数据质量检测方法对应的数据依赖的数据质量检测装置,其特征在于,包括: 参照文件分析单元,分析所述参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构; 数据依赖规则定义单元,接收所述待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构; 数据依赖规则检查单元,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出所述标记。8.根据权利要求7所述的数据质量检测装置,其特征在于, 检测信息处理单元,再次遍历所述待检测字段的树形结构,根据所述标记输出错误信息。9.根据权利要求8所述的数据质量检测装置,其特征在于, 格式转换单元,将待输入的所述参照文件或所述待检测数据转换为要求格式;所述格式转换单元将数据输入所述参照文件分析单元。10.根据权利要求7或8或9所述的数据质量检测装置,其特征在于, 所述数据依赖规则定义单元包括: 映射模块,接收所述待检测数据,接收所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射; 树形结构模块,对所述待检测字段的数据值进行分析,输出每个字段的不同值及对应的所有所述记录编号,并按照所述参照级别将各字段的值同样组织成所述待检测字段的树形结构。
【专利摘要】本发明为一种数据依赖的数据质量检测方法及装置,所述方法包括:步骤b,分析参照文件,根据所述参照文件各字段具有不同值的个数判断该字段所处级别,并将各字段的值组织成所述参照文件的树形结构;步骤c,接收待检测数据,根据所述参照文件的所述字段的名称及其对应级别信息,确定所述待检测数据待检测字段与参照级别的映射,并组织成所述待检测字段的树形结构;步骤d,遍历所述参照文件的树形结构,在所述待检测字段的树形结构对应位置上查找值,并做出标记;所述装置包括与各个步骤相对应的参照文件分析单元、数据依赖规则定义单元和数据依赖规则检查单元。这样,可以在检查过程中准确定位错误的发生源,且大大提高了检测速度和效率。
【IPC分类】G06F17/30
【公开号】CN105701199
【申请号】CN201610016515
【发明人】彭泽武, 冯歆尧, 江疆, 杨秋勇, 张晓霞
【申请人】广东电网有限责任公司信息中心
【公开日】2016年6月22日
【申请日】2016年1月8日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1