一种内存云计算平台上的数据仓库安全olap方法

文档序号:9922090阅读:832来源:国知局
一种内存云计算平台上的数据仓库安全olap方法
【技术领域】
[0001]本发明涉及一种数据仓库领域中的查询处理方法,特别是关于一种面向企业敏感数据分析处理的内存云计算平台上的数据仓库安全OLAP(分析型查询处理)方法。
【背景技术】
[0002]内存计算是一种大数据解决方案,虽然当前商业的内存数据库集群已经达到非常大的规模和数据存储、处理能力,但内存计算在现阶段仍然是一种昂贵的解决方案,内存计算平台的配置和运营成本非常高,未来内存计算的一个趋势是内存云计算服务。数据仓库巨大的数据量要求云平台成为数据的持久存储平台,减少数据迀移代价,但数据仓库存储的是企业及部门最核心的业务数据,对数据的安全性有极高的要求。内存云计算服务面临两个矛盾性的问题:一是为提高内存计算的性能和减少大数据移动代价,需要将尽可能多的数据持久地存储于云计算平台;二是为提高数据的安全性需要将尽可能少的可能造成数据安全隐患的关键业务数据存储在云计算平台。为解决这个矛盾,首先需要将数据仓库的数据按数据安全性要求进行分类,然后需要在企业内部系统平台和云计算平台之间进行数据的分布存储设计,最后按存储模型设计协同的内存云计算模型,由企业内部系统完成敏感数据上的计算,由云计算平台完成在非敏感大数据上的计算,协同完成分析处理任务。
[0003]从数据仓库的结构来看,维表存储的是描述维度的信息,包括企业重要的用户、产品、促销方式、供应商等敏感信息,数据的安全性要求较高;事实表是多维数据存储结构,包括维表外键和度量属性,通常为数值型数据,单独的事实表不包含数据的语义信息,当事实数据不包含语义信息或者数据只有按预设的方式才能正确解读时,数据的安全性能够得到一定的保证。
[0004]从数据存储需求来看,较小的维表通常是敏感性数据,其存储开销较小,并不需要内存云计算平台存储来降低存储成本,适合于存储在企业内部系统平台上由企业保证其数据的安全性。庞大的事实表存储适合利用内存云计算平台降低其数据存储成本,但需要数据安全机制保证事实数据难以被非法分析和解读,还需要数据通过安全性需要划分而产生的多平台协同计算问题。
[0005]云计算是一种共享的数据存储和计算服务,优化的是硬件资源和成本,但其商业化的运营模式难以满足企业或重要部门特殊的数据安全性需求,因此需要一种敏感性数据和非敏感性数据在企业私有系统平台和云计算平台上“分而治之”的存储和计算策略。

【发明内容】

[0006]针对上述问题,本发明的目的是提供一种内存云计算平台上的数据仓库安全OLAP方法,该方法充分利用了内存云平台的高性能和高性价比的特点,保证了数据存储与计算的安全,可以有效地保证企业级数据企业在内存云计算平台上的安全分析处理。
[0007]为实现上述目的,本发明采取以下技术方案:一种内存云计算平台上的数据仓库安全OLAP方法,其特征在于包括以下步骤:1)划分云计算数据集:将整个OLAP数据集按维表和事实表划分为两个数据集,维表存储描述信息,集中存储于企业内部私有数据平台;事实表由维表外键属性和数值型度量属性组成,不包含语义和数据描述信息,存储于云计算平台,实现基于无语义编码上的多维云计算;2)生成维表编码向量:OLAP查询在执行时分解为维表上的操作和事实表上的操作两个执行阶段,企业内部私有数据平台维表上的操作为在各个维表上根据where子句的选择条件投影出维分组向量,维分组向量与维表等长,维分组向量中的编码位置记录维表中满足谓词条件记录对应的分组属性,不满足维表谓词条件的分组属性记录为NULL空值;然后对维分组向量进行编码,用不含语义的字典数组编码代替维表分组属性;当维表中包含多个分组属性时,将分组属性组统一编码;数据仓库的维表采用代理键,维分组向量与维表代理键是一一映射关系,事实表外键直接映射到维分组向量相应的位置上,替代传统的连接操作;各个维表生成的维分组向量构成事实表上的多维过滤器,而且维分组向量的分组编码构成一个多维数组,用于事实表上的分组聚集计算;3)事实表多维过滤,创建度量索引:企业内部私有数据平台上创建的维分组向量通过网络传输到云计算平台,将云计算平台事实表的外键值映射到维过滤向量对应的位置,完成多维过滤操作,并且根据维过滤向量中的维坐标确定事实表记录在分组数组中的多维坐标值,将满足多维过滤条件的事实表记录对应的分组多维坐标值记录在与事实表等长的度量索引向量中,指示度量属性列上需要进行聚集计算的记录位置及聚集结果在分组多维数组中的位置;事实表外键列参照维分组向量完成多维过滤操作后,根据度量索引按位置访问查询相关的度量属性列,完成聚集计算,并将聚集计算结果存储于对应的分组器多维数组中,完成分组聚集计算;4)查询结果解析:OLAP查询的分组聚集结果对应多维数组,不包含语义信息;将云计算平台上生成的分组器多维数组通过网络传输回企业内部私有数据平台,根据维分组向量创建阶段生成的维分组编码反向解析出分组多维数组各坐标对应的分组属性值,将分组器多维数组的各个单元维坐标转换为分组属性值,生成OLAP查询结果。
[0008]进一步,所述步骤I)中,所述数值型度量属性的安全云存储采用以下策略中的一种或任意两种策略的组合:改变度量属性顺序存储策略、基于delta值映射的数据安全策略、基于哈希函数的delta映射数据安全策略和基于位压缩编码重组的数据安全策略;所述步骤3)中,访问事实表度量属性时,根据事实表的数值型度量属性存储策略,对应采用以下一种或任意两种策略解析安全存储的度量属性值:改变度量属性顺序存储解析策略、基于delta值映射的数据安全解析策略、基于哈希函数的delta映射数据安全解析策略和基于位压缩编码重组的数据安全解析策略。
[0009]进一步,所述改变度量属性顺序存储策略为:当度量属性具有相同的数据类型时,通过周期性地改变度量数据在属性列的存储顺序来隐藏真实的数据。
[00?0]进一步,所述基于delta值映射的数据安全策略为在真实数据上乘以或加上一个delta值改变原始数据以达到数据安全的目标:存储到云计算平台的事实数据按预先设定的规则分配分组号创建数据安全维Safe_Dim,属性为ID和delta ,delta表示当前数据安全策略分组对应的数据偏移量,表示为乘以或加上一个delta值,在delta属性值中的最高位置I表示乘法,置O表示加法;事实数据在存入云计算平台时,事实表按数据安全分组外键S_Dim的分组值对度量属性进行delta映射。
[0011]进一步,所述基于哈希函数的delta映射数据安全策略:在事实表数据存储时增加一个delta列,宽度为η位,delta列中的数据为随机数,每个事实表记录的delta值各不相同;预设m个哈希函数,哈希函数将键值映射到delta值对应的一位;对事实表进行分组,每个分组对应一组哈希函数映射,每一个哈希函数映射到事实表记录delta列的一位,构成η位的deltakey,然后将deltakey扩展到与键值相同的位宽,然后键值与位宽执行异或计算,生成编码键值替代原始键值存储在云计算平台。
[0012]进一步,所述基于位压缩编码重组的数据安全策略:事实表的度量属性是数值型的,通过位压缩方法将原始的度量属性缩减存储位宽;事实表中的度量属性经过数据压缩后形成一个长位串,以预先设定的大小为单位对事实记录位串进行组合存储,并改变属性存储顺序。
[0013]进一步,所述改变度量属性顺序存储解析策略:首先通过其他维过滤向量生成度量索引,在聚集计算阶段按度量索引位置扫描数据安全维3_0^,映射到数据安全过滤向量,解析向量中度量属性位置值,访问相应的度量列进行聚集计算;对云计算平台存储的度量数据按照安全策略分组,组内调整度量列顺序相当于在事实表分组间的shuf fer过程,将真实的数据乱序存储,将每个数据安全分组的度量列顺序存储在企业内部数据平台的数据安全维中,为每个查询生成相应的度量属性位置向量,在云计算平台的聚集计算时动态在不同的数据安全分组中选择查询度量属性相匹配的数据,还原原始的数据访问顺序。
[0014]进一步,所述基于delta值映射的数据安全解析策略:查询执行时动态生成安全维过滤向量,通过外键映射实时地将事实表度量属性映射为原始数据以进行正确的聚集计笪并ο
[0015]进一步,所述基于哈希函数的delta映射数据安全解析策略:生成数据安全维过滤向量并传输到云计算平台,云计算平台进行聚集计算时,首先根据数据安全维外键映射到相应的维向量位置,然后根据哈希函数映射指定的哈希函数序号使用哈希函数将键值映射至IjdeIta值,生成delta key,扩展为与编码键值等宽位串后与编码键值进行异或计算,得到原始键值进行聚集计算。
[0016]进一步,所述基于位压缩编码重组的数据安全解析策略:解析数据所需要的度量属性元数据存储在企业内部数据平台的数据安全维表中,记录每个数据安全分组中各度量属性的访问元数据,在查询处理时根据查询中访问的度量属性动态生成维过滤向量,向量由查询访问的各个度量属性位置及长度信息的位编码构成,在云计算平台的聚集计算阶段由相应的API解析后完成对度量属性数据的抽取和访问。
[0017]本发明由于采取以上技术方案,其具有以下优点:1、本发明采用二级平台架构将企业敏感数据管理和非敏感的大数据计算任务分离在安全的企业私有数据平台和安全性相对较弱的公用内存云计算平台,降低了云平台上的数据安全管理复杂性与成本。2、本发明采用基于编码向量的OLAP计算方法,在两个数据
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1