一种基于Hadoop云平台的海量数据比对方法及系统的利记博彩app

文档序号：6632625阅读：583来源：国知局

一种基于Hadoop云平台的海量数据比对方法及系统的利记博彩app
【专利摘要】本发明涉及一种基于Hadoop云平台的海量数据比对方法和系统，所述方法包括：步骤1，将海量数据按区间标尺切分为若干份，并利用云比较引擎对每份数据进行排序，输出对应数量的内部有序的文件至基于Hadoop云平台的分布式文件系统中,作为源数据比对文件；步骤2，当有比对任务时,分布式文件系统通过其主任务节点来调度和控制其余任务节点执行任务文件；步骤3，每个任务节点找出其要执行的任务文件,与源数据比对文件进行比对,将比对的文件中的相同记录放至同一个文件中,将差异记录放到设定的差异文件中；步骤4,各任务节点完成文件比对后,主任务节点对各任务节点的比对结果进行合并和输出。本发明提高了海量数据一致性比对的效率。
【专利说明】-种基于Hadoop云平台的海量数据比对方法及系统

【技术领域】
[0001] 本发明涉及海量数据处理【技术领域】，特别是涉及一种基于Hadoop云平台的海量数据比对方法及系统。

【背景技术】
[0002] 目前随着电信产业的发展，数据业务高速发展，业务规则也变得相对复杂，各大运营商对数据质量要求也越来越高。但是由于业务规则不明确，业务受理入口和出口不统一，业务流程不规范，接口不稳定，缺乏数据稽核等原因导致各网元的用户数据和业务局数据产生差异，由于数据量巨大无法在短时间内稽核完成，如果多次或者拉长稽核周期，比对的数据又会存在时间差，造成比对结果不正确。
[0003] 通过分析传统的数据比对方法发现，传统的比对方法基本上都是基于单主机来进行的，由于受限于单主机资源的限制，稽核效率大多都非常低，尤其随着各行业数据量增大，传统的数据稽核引擎根本无法达到用户的要求。
[0004] 传统的比对方法主要为取出要比对的数据，每个结果集的每条记录有两个字段，第一个是索引字段，第二个是属性字段，如下所示：
[0005]

【权利要求】
1. 一种基于Hadoop云平台的海量数据比对方法，其特征在于，包括：步骤1，将海量数据按区间标尺切分为若干份，并利用云比较引擎对每份数据进行排序，输出对应数量的内部有序的文件，再将该内部有序的文件放至基于Hadoop云平台的分布式文件系统中，作为源数据比对文件；步骤2,当有比对任务时，分布式文件系统通过其主任务节点来调度和控制其余任务节点执行任务文件；步骤3,每个任务节点找出其要执行的任务文件，与源数据比对文件进行比对，将比对的文件中的相同记录放至同一个文件中，并将比对的文件中的差异记录放到设定的差异文件中；步骤4,各任务节点完成文件比对后，主任务节点对各任务节点的比对结果进行合并和输出。
2. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法，其特征在于，所述步骤1中将内部有序的文件放至分布式文件系统中具体包括：根据文件个数和用户自定义文件大小设计数据量分布算法，按数据量分布算法将内部有序的文件存储至分布式文件系统中。
3. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法，其特征在于，所述步骤2还包括：所述主任务节点还用于监控其余任务节点的运行状况，当有任务节点出现故障时，主任务节点将出现故障的任务节点负责的任务转交给空闲的任务节点重新运行。
4. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法，其特征在于，所述步骤3中比对文件是否有相同记录是通过比对文件的排序字段实现的，若排序字段相同则为相同记录，否则为差异记录。
5. 根据权利要求1或4所述的一种基于Hadoop云平台的海量数据比对方法，其特征在于，累加所有存储相同记录的文件，若累加值大于设定值，则将所述相同记录单独输出至新建的另一个文件中。
6. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法，其特征在于，所述步骤4中主任务节点对各任务节点的比对结果进行合并，具体包括：假定源数据比对文件为A，任务节点上要执行的任务文件为B，则将比对结果合并为三个文件，第一个文件用于存储相同记录，第二个文件用于存储A比B多和B除主键相同外属性不一致的数据，第三文件用于存储B比A多和A除主键相同外属性不一致的数据。
7. -种基于Hadoop云平台的海量数据比对系统，其特征在于，包括：源数据处理模块，用于将海量数据按区间标尺切分为若干份，并利用云比较引擎对每份数据进行排序，输出对应数量的内部有序的文件，再将该内部有序的文件放至基于 Hadoop云平台的分布式文件系统中，作为源数据比对文件；节点分配模块，用于当有比对任务时，调用分布式文件系统通过其主任务节点来调度和控制其余任务节点执行任务文件；比对模块，用于调用每个任务节点找出其要执行的任务文件，与源数据比对文件进行比对，将比对的文件中的相同记录放至同一个文件中，并将比对的文件中的差异记录放到设定的差异文件中；输出模块，用于在各任务节点完成文件比对后，调用主任务节点对各任务节点的比对结果进行合并和输出。
8. 根据权利要求7所述的一种基于Hadoop云平台的海量数据比对系统，其特征在于，所述源数据处理模块中将内部有序的文件放至分布式文件系统中具体包括：根据文件个数和用户自定义文件大小设计数据量分布算法，按数据量分布算法将内部有序的文件放至分布式文件系统中。
9. 根据权利要求7所述的一种基于Hadoop云平台的海量数据比对系统，其特征在于，所述主任务节点还用于监控其余任务节点的运行状况，当有任务节点出现故障时，主任务节点将出现故障的任务节点负责的任务转交给空闲的任务节点重新运行。
10. 根据权利要求1所述的一种基于Hadoop云平台的海量数据比对方法，其特征在于，所述输出模块中主任务节点对各任务节点的比对结果进行合并具体包括：假定源数据比对文件为A，任务节点上要执行的任务文件为B，则将比对结果合并为三个文件，第一个文件用于存储相同记录，第二个文件用于存储A比B多和B除主键相同外属性不一致的数据，第三文件用于存储B比A多和A除主键相同外属性不一致的数据。
【文档编号】G06F17/30GK104317942SQ201410602807
【公开日】2015年1月28日申请日期:2014年10月31日优先权日:2014年10月31日
【发明者】何攀申请人:北京思特奇信息技术股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何攀
技术所有人：北京思特奇信息技术股份有限公司
我是此专利的发明人

上一篇：一种文件接口开发方法及系统的利记博彩app
上一篇：利用智能电子设备上传和分享信息的装置和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。