一种基于时间容量分析的数据仓库主机资源预测方法

文档序号:6466808阅读:206来源:国知局

专利名称::一种基于时间容量分析的数据仓库主机资源预测方法
技术领域
:本发明涉及一种对商业智能系统中核心数据仓库服务器处理能力的预测方法,尤其是一种基于时间容量分析的数据仓库主机资源预测方法。
背景技术
:商业智能系统(简称BI系统)的概念最早在1996年提出,其定义为一类由数据仓库(或数据集市)、査询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以辅助决策为目的技术及其应用。目前,BI系统通常被理解为将现有的数据转化为知识,帮助做出明智的业务经营决策的工具。而数据仓库则是BI系统的核心和基础。目前BI系统在电信、邮政、银行、证券、物流、保险、商业等行业有较广泛的应用,在统计、税务、工商、物价、社保、经贸委、计委等政府机构也有应用。本发明探讨的是一种通用的数据仓库服务器处理能力的预测方法,出于描述方便考虑,本文以电信行业数据仓库能力测算为例;其他行业应用时,使用相应概念替换公式中参数即可使用,如使用储户数量、投保人数量替换用户数,储户交易条数替换话单量等。目前,在进行数据仓库资源需求预测和规划时,一般釆用两种方法,即基于软件厂家业务模型的能力预测方法(以下简称业务模型法),以及根据当前服务器使用情况、使用业务量(用户数)类比推算建设目标期末资源需求的能力预测方法(以下简称业务量类比法)。具体来i兑,业务模型法一般如下进行①、建设单位或设计单位根据一定模型给出建设目标期末的建设规模。②、厂家根据此用户规模,结合自己的经验及软件特点,给出计算模型。③、厂家根据自己的经验及软件特点,给出估计的单位业务处理所需服务器资源需求。'④、根据计算模型及处理单位业务服务器能力需求,估算建设目标期末系统服务器资源需求,计算公式为目标期末系统服务器资源需求=目标期末业务量X单位业务处理所需服务器资源需求X(l+冗余系数),冗余系数一般根据行业通用经验及建设单位维护要求选定。用户数类比法一般如下进行根据一定模型得出建设目标期末的业务量(用户数)规模①、获取服务器当前忙时利用率,结合设备标称处理能力,计算当前忙时服务器资源。②、根据当前系统资源使用情况,以及业务量增长情况,推算建设目标期末服务器资源需求。计算公式为目标期末服务器资源需求=(目标期末业务量+当前业务量)X当前使用服务器资源X(l+冗余系数)。以上两种方法均存在缺点,无法保证预测结果的准确性。(1)业务模型法此方法的主要问题在于预测模型主要依据厂家提供的数据,主观因素过多,无法保证预测结果的准确性。①、BI系统并非是一成不变的系统,随着业务需求的变动,系统会经常地修改或者增加新的功能点,业务模型与政府的政策法规、用户行为、企业的营销策略等等因素有关;而业务模型法是一种静态方法,此方法默认的前提是系统业务保持不变,即根据当前的业务模式估算目标期能力需求,缺乏对数据变化趋势的分析,所得数据仓库能力可能偏离实际情况较大;②、模型中关键参数为应用软件开发商实验室数据;由于实验室环境与实际环境在服务器平台及设备配置、操作系统平台、数据库平台均有一定的差异,且实验室环境很难模拟实际业务环境中的复杂场景,最终导致对于相关业务的服务器处理能力预测产生偏差;③、模型中关键参数来源于应用软件开发商,而应用软件开发商出于某些商业目的,提供的相应的参数在客观性上有待商榷。(2)业务量类比法此方法的问题主要在于以当前系统运行场景来预测目标期末运营场景,预测结果容易偏小。①、预测过程中没有考虑到系统规模增长、业务与营销变动等因素引起的单位用户资源开销的变化,未针对以上因素进行合理调整,导致结果的偏差;②、此方法是根据当前的CPU使用资源类比规划期末系统CPU资源需求;当前CPU使用资源=设备处理能力值乂当前忙时CPU利用率。而数据仓库服务器在忙时(如数据转换、装载、入库,进行各类汇总等),不管目前服务器处理能力能力大小,CPU利用率始终接近100%;因此仅使用CPU忙时利用率无法客观衡量当前系统资源的使用情况。
发明内容本发明提供了一种基于时间容量分析的数据仓库主机资源预测方法,它更加贴近实际的真实情况,能够更加准确地预测出数据仓库服务器对资源的需求情况,为企业充分利用投资、确保建设进度提供保障,解决了现有技术中存在的问题。本发明为解决上述技术问题所采用的技术方案是一种基于时间容量分析的数据仓库主机资源预测方法,包括如下步骤-(1)、建立数据仓库服务器的关键参数与目标期末服务器能力需求的关联模型,目标期末服务器能力需求=目标期单位用户时间容量X目标期末用户数+目标期忙时时长;(2)、利用预测分析系统对数据仓库服务器的关键参数进行预测估算;(3)、利用数据仓库服务器关键参数的最终估算值和关联模型方程,用预测分析系统计算出目标期末服务器能力需求。上述歩骤(2)包括(21)、确定目标期末用户数和目标期忙时时长;(22)、采集数据仓库服务器的服务器标称处理能力值和12年的每日的系统忙时时长、系统处理用户数和服务器CPU利用率;(23)、建立另一关联模型,每用户时间容量二服务器标称处理能力值X服务器CPU利用率X系统忙时时长+系统处理用户数;(24)、利用采集的数据和关联模型计算出每日每用户时间容量值,然后根据每用户时间容量值做出相应趋势曲线,利用曲线拟合方法对做出的曲线进行拟合得到最佳拟合曲线,通过该拟合曲线得到该曲线的数学模型;(25)、利用该拟合曲线的数学模型计算出目标期单位用户时间容量。本发明采用上述预测方法,具有如下优点(1)、本方法考虑了时长因素,能够更加客观准确的衡量系统能力(2)、充分考虑了业务变动对系统造成的影响,使预测结果更加准确;(3)、提出了时间容量的概念,不仅可以更加客观准确的衡量系统能力,而且可以忽略系统割接、设备换型造成的影响;举例来说,数据仓库服务器如果在某个时刻发生了割接,服务器标称能力翻倍,则从类比法的趋势曲线中可以发现一个很陡的上扬曲线,大大偏离系统实际使用情况,而使用时间容量则不会出现此现象。图1为本发明所述预测方法的流程图。图2为本发明对数据仓库服务器的关键参数进行预测估算的流程图。具体实施例方式为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。如图1所示,为本发明所述预测方法的流程图。包括如下步骤(1)、建立数据仓库服务器的关键参数与目标期末服务器能力需求的关联模型,目标期末服务器能力需求=目标期单位用户时间容量x目标期末用户数+目标期忙时时长;(2)、利用预测分析系统对数据仓库服务器的关键参数进行预测估算;(3)、利用数据仓库服务器关键参数的最终估算值和关联模型方程,用预测分析系统计算出目标期末服务器能力需求。本发明为上述步骤(2)提供了一种预测估算方法,如图2所示,包括如下步骤(21)、确定目标期末用户数和目标期忙时时长;(22)、采集数据仓库服务器的服务器标称处理能力值和12年的每日的系统忙时时长、系统处理用户数和服务器CPU利用率;(23)、建立另一关联模型,每用户时间容量-服务器标称处理能力值X服务器CPU利用率X系统忙时时长+系统处理用户数;(24)、利用采集的数据和关联模型计算出每日每用户时间容量值,然后根据每用户时间容量值做出相应趋势曲线,利用曲线拟合方法对做出的曲线进行拟合得到最佳拟合曲线,通过该拟合曲线得到该曲线的数学模型;(25)、利用该拟合曲线的数学模型计算出目标期单位用户时间容量。上述模型中,系统忙时时长,是指数据仓库满载运行业务的时段。在本方法中,忙时定义为CPU利用率超过90%的时段,一般指数据入库、数据处理、生成主题数据三大过程,忙时时长为三大处理过程时段长度之和。服务器标称处理能力值可以根据服务器硬件配置,从相关标准的网站或厂家处获得公测值。通过对数据仓库服务器运行数据研究发现,其忙时CPU利用率基本处于满负荷状态,因此服务器CPU利用率取100%。目标期忙时时长,需通过调研,根据业务实际需要确定忙时时长。以电信行业为例,其BOSS系统每晚会对当天数据进行计算,一般在次日凌晨0时左右方可形成BI系统分析所需的原始数据;而市场经营部门、各级领导需要在次曰上班时就可以査看分析结果;因此,数据仓库的运行时间不能早于0时,不应晚于8时。考虑到BI维护人员尚需一定时间对分析数据进行校验,因此目标期理想忙时时长取7小时。其他行业的数据仓库忙时时长,可参照以上方法,根据实际业务需求确定。目标期末用户数的预测方法有多种,如人口普及法、市话容量类比法、趋势外推法、成长曲线等,其仅作为本测算方法的输入条件。所谓服务器时间容量,是一种衡量应用占用数据仓库服务器资源的指标。其中,现有的类比法中,目标服务器资源是对当前使用的服务器资源进行简单的用户数类比得到的。而在计算当前使用服务器资源时,一般取服务器标称处理能力值X忙时服务器CPU利用率;由上述可知,在现有服务器能力范围内,无论其标称处理能力能力多大,忙时CPU利用率均将达到1009(),因此,在现有类比法计算公式中,"当前使用服务器资源"实际等于"服务器标称处理能力值"。由于缺少对时长的考量,无法客观衡量当前服务器的实际资源使用情况。如果基于当前忙时时长较短的服务器测算,最终的预测结果会偏大;而基于目前已超负荷运行、无法满足正常业务需求的服务器,最终的预测结果将偏小。与传统类比法仅使用忙时能力使用值一维数据预测业务能力需求不同,本方法给出的时间容量概念,是从服务器资源和时间两个维度去衡量服务器的资源使用情况,可以更加准确的说明服务器资源的使用情况。目标期单位用户时间容量是指通过拟合曲线的数学模型计算取得的目标期单位用户时间寧量。根据每用户服务器时间容量,做曲线拟合,运用多种数据模型的趋势线与实际曲线进行拟合,确定拟合最好曲线的数据模型。用该曲线对应的数学模型预测目标期单位用户时间容量。常用的拟合曲线有线性曲线(Y-a+bX),对数曲线(Y=aLN(X)+b)、乘幂曲线(Y:aX"、指数曲线(Y=aeM)。之所以使用每用户服务器时间容量,而不是直接使用时间容量的历史数据,主要是去除用户数增长因素对时间容量的影响,以免重复计算。下面通过具体数据对某省数据仓库服务器处理能力进行预测分析。(1)、采集自2005年10月到2007年12月数据仓库服务器每日系统忙时时长、系统处理用户数和服务器CPU利用率,利用关联模型每用户时间容量=服务器标称处理能力值X服务器CPU利用率X系统忙时时长+系统处理用户数得到每用户时间容量;再取每月每万用户的时间容量数据得到如下表所示数据,以分钟MpmC为单位。<table>tableseeoriginaldocumentpage9</column></row><table>(2)、根据上面的历史数据做趋势曲线,并利用对数曲线确定拟合最好的曲线为Y=26.285Ln(X)+27.31(3)、根据上面的拟合曲线,进而预测出满足期末(2009年12月)资源需求目标期末服务器能力需求=目标期单位用户时间容量X目标期末用户数+目标期忙时时长=(26.285Ln(51)+27.31)X目标期末用户数+目标期忙时时长其中目标期末用户数和目标期忙时时长由建设单位根据业务需求给出;X为2005年10月到2009年12月目标期末的总月数。本发明未详述之处,均为本
技术领域
技术人员的公知技术。权利要求1、一种基于时间容量分析的数据仓库主机资源预测方法,其特征在于包括如下步骤(1)、建立数据仓库服务器的关键参数与目标期末服务器能力需求的关联模型,目标期末服务器能力需求=目标期单位用户时间容量×目标期末用户数÷目标期忙时时长;(2)、利用预测分析系统对数据仓库服务器的关键参数进行预测估算;(3)、利用数据仓库服务器关键参数的最终估算值和关联模型方程,用预测分析系统计算出目标期末服务器能力需求。2、根据权利要求1所述的一种基于时间容量分析的数据仓库主机资源预测方法,其特征在于所述步骤(2)包括(21)、确定目标期末用户数和目标期忙时时长;(22)、采集数据仓库服务器的服务器标称处理能力值和12年的每日的系统忙时时长、系统处理用户数和服务器CPU利用率;(23)、建立另一关联模型,每用户时间容量-服务器标称处理能力值X服务器CPU利用率X系统忙时时长+系统处理用户数;(24)、利用采集的数据和关联模型计算出每日每用户时间容量值,然后根据每用户时间容量值做出相应趋势曲线,利用曲线拟合方法对做出的曲线进行拟合得到最佳拟合曲线,通过该拟合曲线得到该曲线的数学模型;(25)、利用该拟合曲线的数学模型计算出目标期单位用户时间容量。全文摘要本发明涉及一种对商业智能系统中核心数据仓库服务器处理能力的预测方法,尤其是一种基于时间容量分析的数据仓库主机资源预测方法。包括如下步骤(1)建立数据仓库服务器的关键参数与目标期末服务器能力需求的关联模型;(2)利用预测分析系统对数据仓库服务器的关键参数进行预测估算;(3)利用数据仓库服务器关键参数的最终估算值和关联模型,用预测分析系统计算出目标期末服务器能力需求。本发明充分考虑了时长因素和业务变动对系统造成的影响,能够更加准确地预测出数据仓库服务器对资源的需求情况,为企业充分利用投资、确保建设进度提供保障。文档编号G06F17/30GK101364229SQ200810157529公开日2009年2月11日申请日期2008年10月6日优先权日2008年10月6日发明者付宏志,誌张,李方村,高卫荣申请人:中国移动通信集团设计院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1