分布式文件系统的数据管理方法和装置的制造方法_2

文档序号:9887743阅读:来源:国知局
整该预定统计周期(可以延长或缩短统计周期),重复步骤3?6。
[0060]其中,对于上述步骤2的具体实现来说,在一个实施例中,在由数据节点对其所包含的数据段进行访问次数的记录以及对上述预定统计周期内每个被访问的数据段的访问次数进行统计时可以采用如下方案:
[0061]例如,客户端对数据节点上的数据段每秒的访问次数为5万次,并为每个数据段的记录的访问次数分配16B的存储空间,则T时间(即上述预定统计周期)内需要内存为16*T*50000Β,并分配这样的内存数组{key I = inodeID,key2 =访问次数},T时间内访问的数据段均放到连续的这块数组里,T时间结束后以inodeID为关键字做快速排序,则可将相同的访问的数据段相邻的排列,然后合并相同的inodeID的访问次数(即同一数据段在T时间内的访问次数之和),并将每个数据段的访问统计次数(作为新Key2)写到该内存里;然后再以访问统计次数Key2为关键字做快速排序,选出前N个热数据段(即将访问统计次数大于预定的统计次数阈值的数据段),该内存可循环进行下一轮的使用。整个过程是无锁访问,只需用一个原子变量,对业务几乎无影响。
[0062]此外,为了避免存储在快设备上的热数据段的访问次数已经变低,降低快设备的空间利用效率,根据本发明实施例的数据管理方法还可包括对快设备上的热数据的迀出策略,具体包括:
[0063]元数据服务器按预定检测周期遍历快设备上的热点数据段的未访问间隔时间,其中,未访问间隔时间为该热点数据段距离当前时间最近一次的访问时间与当前时间的间隔时间;并将热点数据段的未访问间隔时间与预定最大未访问间隔时间作比较;将未访问间隔时间大于预定最大未访问间隔时间的热点数据段从快设备迀移至慢设备。
[0064]由此可见,本发明通过以文件的区间段为单位来统计数据的访问频度,并以此为单位进行数据的迀移,并通过动态的调整统计的周期,对同一统计周期内数据段访问次数做记录,并排序找出前N个,若满足设定的访问频度则认为其为热点,然后通过数据迀移的技术将这些区间段迀移到指定的快设备上。既杜绝了以文件为单位的热点时迀移数据过多且存在非热点内容的缺点,又减少以页面为单位的热点过于分散无法迀移的问题,而动态调整的统计周期又保证了尽可能准确的统计到真正的热点,从而提高热点数据的访问速度。
[0065]根据本发明的实施例,还提供了一种分布式文件系统的数据管理装置。
[0066]如图3所示,根据本发明实施例的数据管理装置包括:
[0067]记录模块31,用于在对文件对象进行访问时,记录文件对象中每个被访问的数据段的访问次数;
[0068]统计模块32,用于统计预定统计周期内每个被访问的数据段的访问次数,得到预定统计周期内每个被访问的数据段的访问统计次数;
[0069]迀移模块33,用于将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备。
[0070]此外,在一个实施例中,根据本发明实施例的数据管理装置进一步包括:
[0071 ]排序模块(未示出),用于在将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备之前,对预定统计周期内每个被访问的数据段的访问次数作排序。
[0072]另外,在一个实施例中,根据本发明实施例的数据管理装置进一步包括:
[0073]比较模块(未示出),用于将预定统计周期内每个被访问的数据段的访问统计次数与预定的统计次数阈值作比较。
[0074]其中,在一个实施例中,根据本发明实施例的迀移模块包括:
[0075]确定模块(未示出),用于将大于预定的统计次数阈值的访问统计次数确定为满足预定访问频度的访问统计次数;
[0076]设定模块(未示出),用于将满足预定访问频度的访问统计次数所对应的数据段设定为热点数据段;
[0077]迀移子模块(未示出),用于将热点数据段迀移至快设备。
[0078]综上所述,借助于本发明的上述技术方案,通过以数据段为单位进行访问次数统计以及数据的迀移,既避免了迀移数据过多且存在非热点内容的缺点,又杜绝了以页面为单位的热点过于分散无法迀移的问题,从而提高热点数据的访问速度;并且配合自适应的统计周期,在大多数情况下可以精确的找到文件中的热点段,并迀移到快速设备上,从而充分利用快速设备空间,尽可能的提升了应用的访问速度。
[0079]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种分布式文件系统的数据管理方法,其特征在于,包括: 在对文件对象进行访问时,记录所述文件对象中每个被访问的数据段的访问次数; 统计预定统计周期内所述每个被访问的数据段的访问次数,得到所述预定统计周期内每个被访问的数据段的访问统计次数; 将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备。2.根据权利要求1所述的数据管理方法,其特征在于,在将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备之前,进一步包括: 对所述预定统计周期内每个被访问的数据段的访问次数作排序。3.根据权利要求1或2所述的数据管理方法,其特征在于,进一步包括: 将所述预定统计周期内每个被访问的数据段的访问统计次数与预定的统计次数阈值作比较。4.根据权利要求3所述的数据管理方法,其特征在于,将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备包括: 将大于所述预定的统计次数阈值的访问统计次数确定为所述满足预定访问频度的访问统计次数; 将满足所述预定访问频度的访问统计次数所对应的数据段设定为热点数据段; 将所述热点数据段迀移至快设备。5.根据权利要求3所述的数据管理方法,其特征在于,进一步包括: 在所述预定统计周期内每个被访问的数据段的访问统计次数均小于所述预定的统计次数阈值的情况下,调整所述预定统计周期。6.根据权利要求4所述的数据管理方法,其特征在于,进一步包括: 按预定检测周期遍历所述快设备上的热点数据段的未访问间隔时间,其中,所述未访问间隔时间为该热点数据段距离当前时间最近一次的访问时间与当前时间的间隔时间; 将所述热点数据段的未访问间隔时间与预定最大未访问间隔时间作比较; 将未访问间隔时间大于所述预定最大未访问间隔时间的热点数据段从所述快设备迀移至慢设备。7.一种分布式文件系统的数据管理装置,其特征在于,包括: 记录模块,用于在对文件对象进行访问时,记录所述文件对象中每个被访问的数据段的访问次数; 统计模块,用于统计预定统计周期内所述每个被访问的数据段的访问次数,得到所述预定统计周期内每个被访问的数据段的访问统计次数; 迀移模块,用于将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备。8.根据权利要求7所述的数据管理装置,其特征在于,进一步包括: 排序模块,用于在将满足预定访问频度的访问统计次数所对应的数据段迀移至快设备之前,对所述预定统计周期内每个被访问的数据段的访问次数作排序。9.根据权利要求7或8所述的数据管理装置,其特征在于,进一步包括: 比较模块,用于将所述预定统计周期内每个被访问的数据段的访问统计次数与预定的统计次数阈值作比较。10.根据权利要求9所述的数据管理装置,其特征在于,所述迀移模块包括: 确定模块,用于将大于所述预定的统计次数阈值的访问统计次数确定为所述满足预定访问频度的访问统计次数; 设定模块,用于将满足所述预定访问频度的访问统计次数所对应的数据段设定为热点数据段; 迀移子模块,用于将所述热点数据段迀移至快设备。
【专利摘要】本发明公开了一种分布式文件系统的数据管理方法和装置,该方法包括:在对文件对象进行访问时,记录文件对象中每个被访问的数据段的访问次数;统计预定统计周期内每个被访问的数据段的访问次数,得到预定统计周期内每个被访问的数据段的访问统计次数;将满足预定访问频度的访问统计次数所对应的数据段迁移至快设备。本发明通过以数据段为单位进行访问次数统计以及数据的迁移,避免了迁移数据过多的问题从而充分利用快速设备空间,并提高了热点数据的访问速度和性能。
【IPC分类】G06F17/30
【公开号】CN105653642
【申请号】
【发明人】郭照斌, 方海鸥, 康撼宇, 杨鹏, 姜国梁
【申请人】曙光信息产业股份有限公司
【公开日】2016年6月8日
【申请日】2015年12月25日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1