一种大数据处理方法

文档序号:8412634阅读:181来源:国知局
一种大数据处理方法
【技术领域】
[0001] 本发明涉及一种大数据处理,特别涉及一种大数据文件的调度方法。
【背景技术】
[0002] 随着智慧医疗的迅速发展和海量医学数据的出现,需要相应的大型数据库作为载 体来保存这些数据,但大数据的调度成了一个大问题。由于数据量巨大,要找到自己想要的 数据,除了网络传播时的安全性需要考虑外,数据的调度延时也被医务人员关注。大型数据 库数据文件对网络带宽要求高,持续时间长,传统C/S模式的服务消耗的带宽资源过多,且 系统可扩展差;内容分发网络数据库调度CDN费用太贵而难以推广;IP组播数据调度技术 可靠性差、拥塞严重。上述传统技术均在处理医疗海量数据中展现出局限性。
[0003] 因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。

【发明内容】

[0004] 为解决上述现有技术所存在的问题,本发明提出了一种大数据处理方法,包括:
[0005] 在调度寻优计算中定义负载适应度度量值,选择数据库文件的调度时间序列,以 获取最优数据调度顺序。
[0006] 优选地,所述调度顺序由数字串组成,所述数字串分为两部分,第一部分是一个由 大型数据库数据文件数据块序号组成的排列,描述数据块的调度顺序;第二部分为节点子 串,描述为每个数据块分配的处理节点。
[0007] 优选地,所述定义负载适应度度量值进一步包括:
[0008] 将从所有系统节点中,选择部分节点,使数据库服务器的开销最小数据调度 时间最短的调度顺序作为最优调度顺序,节点i的数据块调度时间Iiode i (time)定义 为:Iiodei (time)=数据块大小/节点上行带宽;并且一个调度顺序的节点总调度时间 total(time)为
[0009]
【主权项】
1. 一种大数据处理方法,其特征在于,包括: 在调度寻优计算中定义负载适应度度量值; 选择数据库文件的调度时间序列,以获取最优数据调度顺序。
2. 根据权利要求1所述的方法,其特征在于,所述数据调度顺序由数字串组成,所述数 字串分为两部分,第一部分是一个由大型数据库数据文件数据块序号组成的排列,描述数 据块的调度顺序;第二部分为节点子串,描述为每个数据块分配的处理节点。
3. 根据权利要求1所述的方法,其特征在于,所述定义负载适应度度量值进一步包括: 将节点i的数据块调度时间Iiodei (time)定义为: Iiodei (time)=节点i的数据块大小/节点i的上行带宽; 调度顺序的节点总调度时间为
其中η为节点总数, 从所有系统节点中,选择部分节点,使数据库服务器的开销最小并且数据调度时间 total (time)最短的调度顺序作为最优调度顺序。
4. 根据权利要求3所述的方法,其特征在于,所述获取最优数据调度顺序进一步包括: (1) 初始化寻优速度,并采用均匀设计产生初始群; (2) 计算数据库服务器负载调度顺序的节点总调度时间total (time); 从调度时间中选择最优粒子作为个体最优解Pbe3t和群体最优解gbf;st; (3) 对于每个粒子来说,f (Xi)为第i个调度时间序列的适应度值,若其f (Xi)优于自身 历史最优值f (Pbestii),则用该粒子位置替代个体历史最优位置; f (Xi)与群体最优适应度值HgbestJ进行比较,若f (Xi)更优,则用该粒子位置替代群 体历史最优位置,作为当前最优数据调度顺序; (4) 利用适应度值的方差和序列表达式更新粒子的速度和位置,并产生新一代群; (5) 计算群的适应度方差(〇2),若相邻两次的〇2差异小于阈值C,则转步骤(6),否则 转步骤(7); (6) 对群的最优位置向量pg= [p gl, pg2,…,pgd]进行扰动; (7) 若达到最大迭代次数,则返回全局最优的数据库数据文件调度顺序,若未达到最大 迭代次数,则跳转至步骤(3)以继续优化。
【专利摘要】本发明提供了一种大数据处理方法,包括:在调度寻优计算中定义负载适应度度量值,选择数据库文件的调度时间序列,以获取最优数据调度顺序。本发明使得调度寻优过程考虑数据库服务器负载等因素,保持方法的多样性,防止数据库负载过大出现,提高了大型数据库数据文件调度的效率,增加了系统的吞吐量。
【IPC分类】G06F17-30
【公开号】CN104731975
【申请号】CN201510171957
【发明人】刘颖
【申请人】成都汇智远景科技有限公司
【公开日】2015年6月24日
【申请日】2015年4月13日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1