用于网络空间信息服务系统的空间信息集群缓存预取方法

文档序号:7760206阅读:251来源:国知局
专利名称:用于网络空间信息服务系统的空间信息集群缓存预取方法
技术领域
本发明属于网络空间信息服务技术领域,特别涉及面对大规模用户高强度漫游访问的网络空间信息服务系统的空间信息集群缓存预取方法。
背景技术
网络空间信息服务系统(网络GIS)日益流行使其利记体育经历了持续高速增长。 例如NASA World Wind的数据请求数达到了每天650万次,所涉及的空间信息量超过 155GB ;Google Earth与Google Maps利记体育在06年已超过1亿;法国推出的卫星地图 Geoportail,首日利记体育即达到了 500万。面对大规模和高强度的用户访问请求,空间信息集群服务器端缓存预取技术在节省网络带宽、减轻后端服务器负载压力、缩短用户请求响应时间等方面,具有巨大的优势,可用于满足用户在漫游数字地球时对空间信息服务质量感知需求。但确定预取候选对象一直是预取技术的难点。建立有效的用户漫游预测模型, 对用户漫游过程作出准确的预测,是空间信息集群缓存预取的关键。缓存预取实际上是一种主动缓存技术,缓存系统利用用户对数据的访问请求模式的先验知识,当缓存处理当前用户数据请求时,预测该客户在最近的将来将要访问的数据并预先从服务器中将对应的数据获取回来并放在缓存存储区中。可见,缓存预取技术中,最核心的部分是对用户未来数据请求的准确预测[1]。缓存预取技术,具有明显的双面效应。 如果预测准确,将对应的数据预先存储在缓存服务器,则下一时刻用户访问该数据时,将直接由缓存响应,大大地降低了用户数据请求响应时间;否则,如果预测不准确,不但没有将用户下一时刻将要访问的数据预先存储在缓存中,没有起到降低用户数据请求响应时间的目的,而且,由于预取无用的数据,给服务器端增加了无任何价值的数据访问,也浪费了网络资源。目前,研究人员对网页的缓存预取做出了很多有益研究,多采用马尔可夫模型 (Markov模型)提高预取的准确率,且都针对单客户端的操作预取。在网络GIS领域,缓存预取方面研究相对较少。传统空间数据缓存预取的方法采用分层分块的缓存预取技术,预先将矢量或栅格数据输出为大小固定的瓦片(tile),根据当前时刻浏览瓦片范围,预测下一时刻可能要访问的瓦片集合[2];文献[3]提出基于概率的瓦片预取算法,该算法考虑到当前瓦片邻近瓦片范围,计算所有相关瓦片的访问概率并选择前t个(预取个数)概率最大的瓦片进行预取,但这种概率排序的合理性未给出;文献[4]提出了基于前K步瓦片移动的邻居瓦片选择Markov链的算法来预取用户未来可能访问的瓦片,在一定程度上提高了系统性能,但因假定所有瓦片具有相同的访问转移概率,而未考虑空间地物重要性不同,及被访问概率的差别;文献[5]提出基于希波特(Hillbert)曲线的预取方法,使用此聚类方法来反映空间数据的“空间位置性”,利用两个空间对象Hilbert值的差异程度来判断空间对象之间的距离远近,设置一个距离阈值,将阈值范围内的空间对象设置为预测的对象集合; 文献[6]通过大量学习样本,验证基本Markov预测模型能有效地提高瓦片数据的预取命中率,但由于地图浏览与网页浏览的过程不同,高阶Markov模型不会提高预测准确率。以上研究都关注于瓦片当前的转移状态,考虑到其空间距离上相邻的瓦片总是倾向于在被访问时间上也相邻,即瓦片的空间局部性。并且各个方法中访问概率的获取基本通过假设初始值或经过较长学习过程确定其概率,而其学习数据的选取是个随机过程。研究证明空间数据瓦片访问请求存在访问倾斜和重复性,符合社会学中的“二八原则”,即百分之二十的瓦片吸引了百分之八十的请求,空间数据瓦片的长期访问概率与其访问排名之间符合齐普夫(Zipf)分布规律[7]。且因Zipf分布及其分布规律反映了群体用户的行为,可以用于建立有效集群缓存机制,建立基于热点数据的用户访问集群缓存模型, 将访问频率(Fi)高的瓦片请求直接由服务器缓存响应,而不需要对后端的存储设备进行重复读取,以此节省大量的I/O带宽,缩短用户响应时间[8]。

Zipf分布体现了访问排名第i位瓦片的长期访问频率Fi,是瓦片访问长期流行度的一种表现,有利于瓦片集群缓存的全局优化策略。而用户浏览空间数据的过程是一个受浏览目的、当前热点等多种因素影响的复杂过程[9],瓦片及瓦片访问间存在特定形式的时间局部相关性和空间局部相关性[10],Zipf分布缓存方式无法适应瓦片访问模式变化和突发性访问,将造成缓存污染[11]。而Markov缓存预取模型将用户的浏览过程抽象为一个特殊的随机过程,一阶离散Markov链,用转移概率矩阵描述用户的浏览特征[12],是瓦片访问短期流行特征的一种表现。但该模型预取结果将随着访问热点变化而变化,将引起频繁的缓存置换和大量的数据调度,加重服务器负载和网络流量。总而言之,我们观察到现有的相关工作,一些缓存预取工作偏重于瓦片间的空间局部性,忽略了瓦片访问固有的高度聚集性;一些工作偏重于研究访问密集型瓦片流行度的奇异特性,而忽略了瓦片访问局部模式变化。因而,如何有效结合瓦片访问长期流行特征和短期流行特征,既考虑瓦片访问模式的全局性又考虑到瓦片访问模式的时空局部变化, 使其缓存对象既能相对稳定又能适应访问分布变化,减少缓存置换频率,提高缓存系统稳定性,是缓存预取方法的关键。文中涉及的参考文献如下王浩.多媒体网络Gis中的分布式负载均衡和缓存技术研究[D].武汉武汉大学,2009:李浩松,朱欣焰,李京伟,陈军.WebGIS空间数据分布式缓存技术研究. 武汉大学学报信息科学版,2005,30(12) 1092-1095. 138Kang Y K, Kim K C, Kim Y S. Probability-based Tile Pre-fetching and Cache Replacement Algorithms for Web Geographical Information Systems[C]. In ACM Proc. of 5th East European Conference on Advances in Databases and Information Systems, Vilnius, Lithuania, 2001.KIM Y S, KIM K C, KIM S D. Prefetching T iled Internet Data Using a Neighbor Selection Markov Chain[ J] . Lecture Notes in Computer Science, 2001, 2060: 103-115.Dong-Joo Park, Hyoung-Joo Kim. Prefetch policies for large objects in a web-enabled GIS application. Data&knowledge Engineering. 2001, 37:65-84.李云锦,钟耳顺,王尔琪,黄跃峰。马尔可夫模型在空间信息预取中的应用。 文章编号0494 0911 ( 2010) 07 0001 04。
[7]王浩,潘少明,彭敏,李锐.数字地球中影像数据的Zipf-Iike访问分布及应用分析.武汉大学学报(信息科学版),2010. 35 (3): 356-359.Shi L,Gu Ζ. M. , Wei L,Shi Y.,2005,Quantitative Analysis of Zipf ’ s Law on Web Cache. Lecture Notes in Computer Science 3758:845-852. [9]邢永康,马少平.多Markov链用户浏览预测模型[J].计算机学报,2003, 26 ( 11) 1510-1517.DJ Unwin. GIS, spatial analysis and spatial statistics. Progress in Human Geography, 1996,20 (4):540.肖明忠,李晓明,刘翰宇,代亚非,张进宇.基于流媒体文件字节有用性的代理服务器缓存
替代策略.计算机学报,2004,27(12) 1633-1641.王文林,廖建新,朱晓民.VoiceXML语音平台缓存技术综述.通信学报, 2007,28(02) 101-108。

发明内容
本发明的目的在于针对现有技术中存在的问题,提出一种结合瓦片访问长期流行特征和短期流行特征的集群缓存预取方法,使其符合实际应用规律并能有效提升实际网络 GIS系统的服务性能,节省1/0带宽,缩短用户响应时间,提高服务容量。本发明的技术方案是用于网络空间信息服务系统的空间信息集群缓存预取方法, 包括以下步骤,
步骤1,选取系统中访问次数排名前20%的瓦片作为用户浏览窗口的中心点,构成中心点集合{《,12,…,Zk !,其中w表示系统中访问次数排名前20%的瓦片的数目;基于齐
普夫分布规律,得到系统中访问次数排名前20%的瓦片的访问概率习、马…巧,其中Pi = C
/ f , i取值为1 η,C为归一化常数;
步骤2,为用户浏览窗口的中心点建立基本Markov模型,具体实现如下, 设在地形浏览过程中,用户浏览窗口的中心点转移是一个Markov过程,则中心点转移构成一个随机变量的取值序列,且该取值序列满足Markov性,用三元组MC = <Χ、Α、λ>表示该取值序列,
其中,离散随机变量X标识用户浏览窗口的中心点集合丨不,I2,…,;初始状态分布λ为齐普夫分布,λ={ n };转移概率矩阵A中的每一项P14表示由中心点
iI" l2 1K.
集合内的某一中心点Ii转移到另一中心点的访问转移概率;所述访问转移概率P,,的求取方式为,定义由某瓦片转移到与该瓦片相邻的瓦片的访
问转移概率为1步转移概率,确定中心点^ 转移到中心点Z/的所有转移路径,对所有转移路径经过的1步转移概率,在条件概率下进行叠加得到访问转移概率P ,;所述1步转移概
率的求取方式为,对瓦片周边的四块同层相邻瓦片和上下层相邻瓦片的访问概率进行归一化,获取瓦片至周边瓦片的1步转移概率;
步骤3,根据步骤2所建立的基本Markov模型预测地形浏览过程中中心点集合
Ur1, X…A !内各中心点的访问转移概率,再分别根据各中心点的访问转移概率预测
相应用户浏览窗口包含的瓦片访问转移概率;
步骤4,根据中心点集合!Z11Z2,…,JiH}和步骤3所得瓦片访问转移概率,选择访
问转移概率高的瓦片形成缓存预取瓦片集合;
步骤5,对步骤4所得缓存预取瓦片集合中的瓦片进行集群缓存分布。而且,步骤4具体实现方式如下,
首先,比较预先设定的阈值和访问概率召、巧…巧,将中心点集合,…,Zb }
内访问概率大于阈值的中心点放入缓存预取瓦片集合T,这些中心点的瓦片大小之和记为 Ql ;
然后,比较预先设定的阈值和步骤3所得的瓦片访问转移概率,将瓦片访问转移概率大于阈值的瓦片存入集合Tp;
最后,对集合Tp中的瓦片按瓦片访问转移概率由大到小进行排列,根据网络空间信息服务系统中的剩余缓存容量Q2,选取集合Tp中的前W个瓦片放入缓存预取瓦片集合T,其中W=剩余缓存容量/瓦片大小,剩余缓存容量Q2=Q-Q1,Q表示网络空间信息服务系统提供的集群缓存大小。而且,步骤5中所述进行集群缓存分布的具体方式如下,
假设网络空间信息服务系统中的一组集群缓存服务器为S= {Si|l彡i彡L},Sp(Si)为集群缓存服务器Si当前的所有缓存瓦片的访问概率和,初始值都为0,Cs(Si)为集群缓存服务器Si的剩余缓存大小,Min(S)为这组集群缓存服务器S中当前Sp(Si)最小的集群缓存服务器,缓存预取瓦片集合为T=ITiI 1彡i彡N},其中瓦片Ti的大小为TS(Ti),访问概率为 P (Ti);
对缓存预取瓦片集合T中的每个瓦片Ti依次进行放置,放置方式为将集群缓存服务器 Min (S)记为集群缓存服务器s,如果此时Cs (s) >TS (Ti),缓存瓦片Ti到集群缓存服务器s ;改变集群缓存服务器S的剩余缓存大小CS(S)=CS(S)-Ts(Ti);改变集群缓存服务器s所有缓存瓦片的访问概率和Sp(S)=Sp(S) + P(Ti)0与现有技术相比,本发明具有如下的优点和有益效果
1、高度符合用户密集访问规律,缓存预取对象具有高的预取准确度。

数据流行度反映用户对数据访问偏好的总体特性。流行度的奇异特性,如高度聚集性,是提高缓存预取命中率的重要理论依据。而瓦片数据流行度具有长期流行特性(聚集并稳定的)和短期流行特征(聚集并有爆发性)。Zipf规律表征瓦片访问长期流行特征,基本Markov模型表征瓦片访问时空局部变化规律的短期流行特征。本发明所提供的用于网络空间信息服务系统中的集群缓存预取方法,结合了两者瓦片访问流行特征,一方面考虑瓦片访问的全局性,以Zipf分布规律为基础,获取瓦片长期稳定的访问分布概率;另一方面考虑瓦片访问模式的时空局部变化,基于Markov模型,描述用户实时的瓦片浏览特性, 预测瓦片局部访问转移概率,并缓存访问转移概率高的瓦片数据,使其缓存对象即能相对稳定又能适应访问分布变化,不仅具有较高系统稳定性,并且具有高的预取准确度。2、能有效减少系统开销,较大幅度提高网络GIS系统运行性能
Zipf定律指出20%的瓦片吸引了 80%的请求。本发明在Markov模型的转移概率矩阵 A中,仅选取前20%瓦片作为浏览中心点,即转移概率矩阵A只关心排名前20%瓦片作为中心点的访问转移概率,即存储空间为(η)2,η为浏览中心点的个数。相对普通的Markov预测模型所需存储空间(5η)2减少将近96%的存储开销。并在集群缓存中,充分利用有限的缓存空间,选取概率高的瓦片进行缓存,再根据瓦片访问转移概率划分瓦片缓存分布,使每台集群服务器的访问概率相近,从缓存分布上对服务器进行负载均衡,以此较大缩短用户响应时间,大幅提高系统并发数。3、遵从地形漫游过程,在真实网络GIS系统中具有实用性
对系统的运行行为和用户交互模式进行统计分析,进而设计针对性的服务系统改进方法,可以很准确地匹配系统的实际运行状况。本发明提出,在缓存预取方法的关键点Markov 模型参数计算中,数据基础来源于真实网络GIS系统长期运行行为的统计结果,即瓦片访问流行度符合Zipf规律。并充分考虑到瓦片间具有固有的空间邻接关系,参照位置相关性来确定其访问转移路径。考虑到真实网络GIS系统中,用户漫游地形数据时,服务器将返回瓦片集合,内含多个瓦片,本发明先基于瓦片流行度符合Zipf规律计算瓦片集合中心点的访问转移概率,再由中心点的访问转移概率映射到瓦片的访问转移概率,从而匹配真实网络GIS系统的实际运行状况,具有实用性。


图1是本发明实施例的瓦片漫游时运动方向示意图。图2是本发明实施例的瓦片访问1步转移、2步转移示意图。
具体实施例方式
本发明是一种网络空间信息服务集群缓存预取方法,它基本思想为基于Zipf分布进行Markov集群缓存预取以瓦片长期流行度符合Zipf分布规律为基础构建基本Markov 模型;再基于Markov模型,描述用户实时的瓦片浏览特性进行缓存预取,使缓存预取具有较高的命中率同时内容又相对稳定,以提高集群服务效率。即首先基于Zipf分布规律建立瓦片的访问转移概率估算方法,获取符合瓦片访问特征的转移概率矩阵;然后采用基本 Markov模型预测后续时态访问概率大的瓦片作为缓存对象,最后基于预取瓦片的访问概率将缓存对象均勻分布到集群缓存服务器中。同常见的Markov预测方法相比,关键创造点在于基于瓦片访问流行度符合Zipf规律获取瓦片的访问概率,以确定瓦片之间的访问转移概率,使缓存预取瓦片既能相对稳定又能适应瓦片访问模式变化和突发性访问,即预取过程结合了瓦片访问的全局特性和时空局部特性。以下结合附图和实施例详细说明本发明技术方案。构建本发明实施例的预取模型基础是对网络GIS长期运行过程中系统的运行行为和用户交互模式进行统计分析结果。基于不同的时间尺度,采集网络GIS系统日志,对所有瓦片访问次数进行排名,拟合获取其Zipf分布曲线及其分布参数α的值。根据所有瓦片访问次数进行排名的结果,就可以选取排名前20%的瓦片,以便作为本发明的预取模型浏览中心点。实施例包括以下步骤
步骤1,选取系统中访问次数排名前20%的瓦片作为用户浏览窗口的中心点,构成中
心点集合UlZ2,…,if },其中f表示系统中访问次数排名前20%的瓦片的数目;基于
Zipf分布规律,得到系统中访问次数排名前20%的瓦片的访问概率I P2…巧。真实网络GIS系统中,用户漫游地形数据时,服务器将返回瓦片集合,瓦片集合内含多个瓦片。浏览窗口的中心点是同一时刻返回给同一客户端的瓦片集合形成的浏览窗口
的中心点。基于Zipf分布规律,计算排名前20%的瓦片的访问概率
权利要求
1. 一种用于网络空间信息服务系统的空间信息集群缓存预取方法,其特征在于包括以下步骤,步骤1,选取系统中访问次数排名前20%的瓦片作为用户浏览窗口的中心点,构成中心点集合{X1,X2,X3}其中n表示系统中访问次数排名前20%的瓦片的数目;基于齐普夫分布规律,得到系统中访问次数排名前20%的瓦片的访问概率P1、P2...Pn,其中Pi = C/ iα , i取值为1 n,C为归一化常数;步骤2,为用户浏览窗口的中心点建立基本Markov模型,具体实现如下, 设在地形浏览过程中,用户浏览窗口的中心点转移是一个Markov过程,则中心点转移构成一个随机变量的取值序列,且该取值序列满足Markov性,用三元组MC = <Χ、Α、λ>表示该取值序列,其中,离散随机变量X标识用户浏览窗口的中心点集合{X1,X2,…,Xn };初始状态分布λ为齐普夫分布,λ ={ P1,P2…Pn};转移概率矩阵A中的每一项Pi,j表示由中心点集合内的某一中心点Xi转移到另一中心点Xj的访问转移概率;
2.根据权利要求1所述用于网络空间信息服务系统的空间信息集群缓存预取方法,其特征在于步骤4具体实现方式如下,首先,比较预先设定的阈值和访问概率+巧…S,将中心点集合I^1,…,Xn }内访问概率大于阈值的中心点放入缓存预取瓦片集合T,这些中心点的瓦片大小之和记为 Ql ;然后,比较预先设定的阈值和步骤3所得的瓦片访问转移概率,将瓦片访问转移概率大于阈值的瓦片存入集合Tp;最后,对集合Tp中的瓦片按瓦片访问转移概率由大到小进行排列,根据网络空间信息服务系统中的剩余缓存容 量Q2,选取集合Tp中的前W个瓦片放入缓存预取瓦片集合T,其中W=剩余缓存容量/瓦片大小,剩余缓存容量Q2=Q-Q1,Q表示网络空间信息服务系统提供的集群缓存大小。
3.根据权利要求1或2所述用于网络空间信息服务系统的空间信息集群缓存预取方法,其特征在于步骤5中所述进行集群缓存分布的具体方式如下,假设网络空间信息服务系统中的一组集群缓存服务器为S= {Sill彡i ( L},Sp(Si)为集群缓存服务器Si当前的所有缓存瓦片的访问概率和,初始值都为0,Cs(Si)为集群缓存服务器的Si剩余缓存大小,Min(S)为这组集群缓存服务器S中当前Sp (Si)最小的集群缓存服务器,缓存预取瓦片集合为T=ITiIl彡i彡N},其中瓦片凡的大小为TS(Ti),访问概率为P (Ti);对缓存预取瓦片集合T中的每个瓦片Ti依次进行放置,放置方式为将当前的集群缓存服务器Min (S)记为集群缓存服务器s,如果此时Cs (s) >TS (Ti),缓存瓦片Ti到集群缓存服务器s ;改变集群缓存服务器s的剩余缓存大小Cs (s) =Cs (s) -Ts (Ti);改变集群缓存服务器 s所有缓存瓦片的访问概率和Sp(S)=Sp(S) + P(Ti)0
全文摘要
本发明公开一种用于网络空间信息服务系统的空间信息集群缓存预取方法,该方法结合瓦片访问长期流行特征和短期流行特征,首先基于瓦片访问的全局性,以瓦片长期流行度符合Zipf分布规律为基础建立瓦片转移概率估算方法并构建基本Markov模型;然后基于瓦片访问模式的时空局部变化,采用基本Markov模型预测后续时态访问转移概率大的瓦片作为缓存对象;最后根据预取瓦片的访问转移概率均匀分布到集群缓存服务器中。该方法既考虑瓦片访问模式的全局性又考虑到瓦片访问模式的时空局部变化,使缓存预取对象即能相对稳定又能适应访问分布变化,具有较高的命中率同时又能减少缓存置换频率,提高了集群缓存系统的稳定性和服务效率。
文档编号H04L29/08GK102355490SQ201110242750
公开日2012年2月15日 申请日期2011年8月23日 优先权日2011年8月23日
发明者徐正全, 李锐, 郭锐 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1