一种基于Hadoop云平台的海量数据比对方法及系统的利记博彩app

文档序号:6632625阅读:583来源:国知局
一种基于Hadoop云平台的海量数据比对方法及系统的利记博彩app
【专利摘要】本发明涉及一种基于Hadoop云平台的海量数据比对方法和系统,所述方法包括:步骤1,将海量数据按区间标尺切分为若干份,并利用云比较引擎对每份数据进行排序,输出对应数量的内部有序的文件至基于Hadoop云平台的分布式文件系统中,作为源数据比对文件;步骤2,当有比对任务时,分布式文件系统通过其主任务节点来调度和控制其余任务节点执行任务文件;步骤3,每个任务节点找出其要执行的任务文件,与源数据比对文件进行比对,将比对的文件中的相同记录放至同一个文件中,将差异记录放到设定的差异文件中;步骤4,各任务节点完成文件比对后,主任务节点对各任务节点的比对结果进行合并和输出。本发明提高了海量数据一致性比对的效率。
【专利说明】-种基于Hadoop云平台的海量数据比对方法及系统

【技术领域】
[0001] 本发明涉及海量数据处理【技术领域】,特别是涉及一种基于Hadoop云平台的海量 数据比对方法及系统。

【背景技术】
[0002] 目前随着电信产业的发展,数据业务高速发展,业务规则也变得相对复杂,各大运 营商对数据质量要求也越来越高。但是由于业务规则不明确,业务受理入口和出口不统一, 业务流程不规范,接口不稳定,缺乏数据稽核等原因导致各网元的用户数据和业务局数据 产生差异,由于数据量巨大无法在短时间内稽核完成,如果多次或者拉长稽核周期,比对的 数据又会存在时间差,造成比对结果不正确。
[0003] 通过分析传统的数据比对方法发现,传统的比对方法基本上都是基于单主机来进 行的,由于受限于单主机资源的限制,稽核效率大多都非常低,尤其随着各行业数据量增 大,传统的数据稽核引擎根本无法达到用户的要求。
[0004] 传统的比对方法主要为取出要比对的数据,每个结果集的每条记录有两个字段, 第一个是索引字段,第二个是属性字段,如下所示:
[0005]

【权利要求】
1. 一种基于Hadoop云平台的海量数据比对方法,其特征在于,包括: 步骤1,将海量数据按区间标尺切分为若干份,并利用云比较引擎对每份数据进行排 序,输出对应数量的内部有序的文件,再将该内部有序的文件放至基于Hadoop云平台的分 布式文件系统中,作为源数据比对文件; 步骤2,当有比对任务时,分布式文件系统通过其主任务节点来调度和控制其余任务 节点执行任务文件; 步骤3,每个任务节点找出其要执行的任务文件,与源数据比对文件进行比对,将比对 的文件中的相同记录放至同一个文件中,并将比对的文件中的差异记录放到设定的差异 文件中; 步骤4,各任务节点完成文件比对后,主任务节点对各任务节点的比对结果进行合并 和输出。
2. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法,其特征在于, 所述步骤1中将内部有序的文件放至分布式文件系统中具体包括:根据文件个数和用户自 定义文件大小设计数据量分布算法,按数据量分布算法将内部有序的文件存储至分布式 文件系统中。
3. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法,其特征在于, 所述步骤2还包括:所述主任务节点还用于监控其余任务节点的运行状况,当有任务节点 出现故障时,主任务节点将出现故障的任务节点负责的任务转交给空闲的任务节点重新 运行。
4. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法,其特征在于, 所述步骤3中比对文件是否有相同记录是通过比对文件的排序字段实现的,若排序字段相 同则为相同记录,否则为差异记录。
5. 根据权利要求1或4所述的一种基于Hadoop云平台的海量数据比对方法,其特征 在于,累加所有存储相同记录的文件,若累加值大于设定值,则将所述相同记录单独输出 至新建的另一个文件中。
6. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法,其特征在于, 所述步骤4中主任务节点对各任务节点的比对结果进行合并,具体包括:假定源数据比对 文件为A,任务节点上要执行的任务文件为B,则将比对结果合并为三个文件,第一个文件 用于存储相同记录,第二个文件用于存储A比B多和B除主键相同外属性不一致的数据,第 三文件用于存储B比A多和A除主键相同外属性不一致的数据。
7. -种基于Hadoop云平台的海量数据比对系统,其特征在于,包括: 源数据处理模块,用于将海量数据按区间标尺切分为若干份,并利用云比较引擎对 每份数据进行排序,输出对应数量的内部有序的文件,再将该内部有序的文件放至基于 Hadoop云平台的分布式文件系统中,作为源数据比对文件; 节点分配模块,用于当有比对任务时,调用分布式文件系统通过其主任务节点来调度 和控制其余任务节点执行任务文件; 比对模块,用于调用每个任务节点找出其要执行的任务文件,与源数据比对文件进行 比对,将比对的文件中的相同记录放至同一个文件中,并将比对的文件中的差异记录放到 设定的差异文件中; 输出模块,用于在各任务节点完成文件比对后,调用主任务节点对各任务节点的比对 结果进行合并和输出。
8. 根据权利要求7所述的一种基于Hadoop云平台的海量数据比对系统,其特征在于, 所述源数据处理模块中将内部有序的文件放至分布式文件系统中具体包括:根据文件个 数和用户自定义文件大小设计数据量分布算法,按数据量分布算法将内部有序的文件放 至分布式文件系统中。
9. 根据权利要求7所述的一种基于Hadoop云平台的海量数据比对系统,其特征在于, 所述主任务节点还用于监控其余任务节点的运行状况,当有任务节点出现故障时,主任务 节点将出现故障的任务节点负责的任务转交给空闲的任务节点重新运行。
10. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法,其特征在 于,所述输出模块中主任务节点对各任务节点的比对结果进行合并具体包括:假定源数据 比对文件为A,任务节点上要执行的任务文件为B,则将比对结果合并为三个文件,第一个 文件用于存储相同记录,第二个文件用于存储A比B多和B除主键相同外属性不一致的数 据,第三文件用于存储B比A多和A除主键相同外属性不一致的数据。
【文档编号】G06F17/30GK104317942SQ201410602807
【公开日】2015年1月28日 申请日期:2014年10月31日 优先权日:2014年10月31日
【发明者】何攀 申请人:北京思特奇信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1