本发明涉及油田开采
技术领域:
:,尤其涉及一种新型无模型贝叶斯分类预测模型软测量方法。
背景技术:
::目前,我国大多数油田采用的是注水方式开采,长期的注水开采方式,使很多油田的含水量很高。录井技术是油气勘探开发活动中最基本的技术,是发现、评估油气藏最及时、最直接的手段。油藏地球化学录井技术是应用油藏地球化学的方法,通过特定的仪器检测岩石中与油气密切相关的烃信息,评价生油岩和储集岩,判断储注水开发区储层的水淹程度,寻找剩余油,为油田的勘探开发提供地质依据。通过热解气相色谱技术对固体样品进行检测,可以获得包含c13-c37之间的蒸发烃气相色谱图,每幅色谱图由40000个时间序列数据组成,色谱图具有复杂、非线性、含噪声等特性。国内外的工程师对油气层的识别也提出了多种解决方法,其中包括原始数据法、图版解释法、参数法、图谱比较法等综合评价方法。然而,从识别所花费的时间和效果方面来说都不是很理想。因此,人工对油气层进行检测主要是依赖录井解释工程师的实际经验,存在着很大的偶然性和误差。技术实现要素:为解决上述问题,本发明提供一种新型无模型贝叶斯分类预测模型软测量方法,至少部分解决上述技术问题。为此,本发明提供一种新型无模型贝叶斯分类预测模型软测量方法,包括:获取油气层的气相色谱图数据;根据曲线拟合法获取所述气相色谱图数据的特征值,以实现所述气相色谱图数据的降维和降噪;对所述气相色谱图数据的特征值进行归一化处理,以形成测量样本;根据预设的无模型贝叶斯分类器分类预测算法对所述测量样本对应的类别进行预测,以获得所述测量样本对应的类别;根据所述测量样本对应的类别对所述油气层进行分析,以获得所述油气层的水淹程度和开采价值。可选的,所述无模型贝叶斯分类器分类预测算法如下:其中p(y=cj)=φj,φj∈[0,1],1{*}是指示函数;所述测量样本x=[x1...xn]t,所述测量样本对应的类别为y=[y1…yn]tyk∈c={c1,c2,……,cq},每个测量样本xk对应的类别为yk。可选的,所述根据预设的无模型贝叶斯分类器分类预测算法对所述测量样本对应的类别进行预测的步骤之前包括:根据贝叶斯算法形成朴素贝叶斯分类器;根据最近邻算法形成概率估计器;根据所述朴素贝叶斯分类器和所述概率估计器形成新型无模型贝叶斯分类器。本发明具有下述有益效果:本发明提供的新型无模型贝叶斯分类预测模型软测量方法之中,首先通过曲线拟合方法有效地实现对气相色谱图数据的降维和降噪,进而提取气相色谱图数据的特征值,从而缩短分类模型的训练时间而且能够获得更好的泛化能力。本发明使用新型无模型贝叶斯分类算法建立识别模型,这样可以有效避免由于训练样本不满足条件独立性而造成的模型泛化性能下降问题。本发明提供的新型无模型贝叶斯分类预测模型软测量方法通过气相色谱图的测量客观展现了不同条件下油气储层的水淹程度,指明了各油气储层的水淹程度与开采价值,有助于石油钻探公司进一步提高开采效率和降低成本。因此,本发明提供的新型无模型贝叶斯分类预测模型软测量方法具有有效性和适用性。附图说明图1为本发明实施例一提供的一种新型无模型贝叶斯分类预测模型软测量方法的流程图;图2为实施例一中傅里叶函数拟合稠油强水淹层色谱图的示意图;图3为实施例一中重质油强水淹层色谱图面积指标分区的示意图;图4为实施例一中高斯函数拟合轻质油差油层色谱图的示意图;图5为实施例一中朴素贝叶斯分类器、高斯概率分布贝叶斯分类器、决策树分类器与新型无模型贝叶斯分类器的分类结果比较示意图;图6为实施例一中knn算法、svm算法、adaboost算法与mfbc算法的分类结果比较示意图。具体实施方式为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的新型无模型贝叶斯分类预测模型软测量方法进行详细描述。实施例一图1为本发明实施例一提供的一种新型无模型贝叶斯分类预测模型软测量方法的流程图。如图1所示,所述新型无模型贝叶斯分类预测模型软测量方法包括:步骤1001、获取油气层的气相色谱图数据。步骤1002、根据曲线拟合法获取所述气相色谱图数据的特征值,以实现所述气相色谱图数据的降维和降噪。步骤1003、对所述气相色谱图数据的特征值进行归一化处理,以形成测量样本。步骤1004、根据预设的无模型贝叶斯分类器分类预测算法对所述测量样本对应的类别进行预测,以获得所述测量样本对应的类别。步骤1005、根据所述测量样本对应的类别对所述油气层进行分析,以获得所述油气层的水淹程度和开采价值。本实施例中,根据贝叶斯算法形成朴素贝叶斯分类器,根据最近邻算法形成概率估计器,根据所述朴素贝叶斯分类器和所述概率估计器形成新型无模型贝叶斯分类器(mfbc)。本实施例提供的朴素贝叶斯分类器(nbc)是基于贝叶斯理论的一种分类器,已广泛应用于文本分类、图像分类、时间序列分类等多个领域。然而,nbc假设样本的各个属性之间都是相互独立的,因此属性之间的相互依赖信息没有被利用。当数据样本中存在着相互依赖的属性时,nbc就会呈现不足,分类正确率降低。最近邻(nn)规则是模式分类中最简单的算法之一,当分类没有重叠时,nn规则被证明可以渐进地趋向于最优。为了能够确定属性之间的关联关系,本实施例基于nn规则形成概率估计器,并将上述概率器应用在朴素贝叶斯分类器中,从而形成新型无模型贝叶斯分类器。曲线拟合(cf)是指用连续曲线近似地比拟平面上一组离散点所表示的坐标之间的函数关系,是一种用解析表达式逼近离散数据的方法。复杂的气相色谱图,实际是通过采样、实验方法获得的离散数据,普遍存在严重的噪声数据,但是分类算法对这些噪声严重的数据比较敏感,所以在此之前需要对原始色谱图数据进行去噪处理,同时为了能够在一定程度提高算法的速度,也需要首先对原始数据进行降维处理。根据这些数据,如果能够找到一个连续的函数或者更加密集的离散方程,使得实验数据与方程的曲线能够在最大程度上近似吻合,就可以根据曲线方程对数据进行数学计算,对结果进行理论分析。因此,本实施例根据cf方法获取原始色谱图数据的特征,并且保留原始样本数据的重要信息,从而达到对原始数据进行去噪和降维的处理效果。本实施例主要分析三种油品:稠油、重质油、轻质油。稠油和重质油的气相色谱图类似,所以采用同种样本方法。图2为实施例一中傅里叶函数拟合稠油强水淹层色谱图的示意图。如图2所示,以30s作为一个时间区间,选取样本区间的极小值,使用8阶傅立叶函数拟合,进行求面积,其中函数表达式如下:funcfourier(x)=a0+a1*cos(x*w)+b1*sin(x*w)+a2*cos(2*x*w)+b2*sin(2*x*w)+a3*cos(3*x*w)+b3*sin(3*x*w)+a4*cos(4*x*w)+b4*sin(4*x*w)+a5*cos(5*x*w)+b5*sin(5*x*w)+a6*cos(6*x*w)+b6*sin(6*x*w)+a7*cos(7*x*w)+b7*sin(7*x*w)+a8*cos(8*x*w)+b8*sin(8*x*w)(1)图3为实施例一中重质油强水淹层色谱图面积指标分区的示意图。如图3所示,面积是根据数据拟合出的函数图像所围成的面积,面积可以分为三个区域,1区是0-10分钟,2区是10-18分钟,3区是18分钟-结束。所以面积的指标有四个:总面积、1区面积、2区面积、3区面积。图4为实施例一中高斯函数拟合轻质油差油层色谱图的示意图。如图4所示,以75s作为一个时间区间,选取样本区间的极大值,使用高斯函数拟合,进行求面积,其中函数表达式如下:funcgaussian(x)=a1*exp(-((x-b1)/c1)^2)(2)本实施例从拟合后的图像提取特征值,得到训练样本集。假设含有n个样本的训练集x=[x1…xn]t,由于每个特征的贡献是不同的,为了减少训练的难度,本实施例采用以下转换公式对训练前的数据集进行归一化处理:如果xij=-1,i=1,2,..,n,j=1,2,...,j。对于测量样本x=[x1…xn]t,所述测量样本对应的类别为y=[y1…yn]tyk∈c={c1,c2,......,cq},本实施例需要预测每一个样本xk对应的类别,本实施例通过公式(4)可以获得测量样本所属类别。本实施例根据贝叶斯定理可以得到公式(5):本实施例可以根据公式(4)和公式(5)为每一个样本xk选择其最可能属于的类别,为了方便,本实施例将公式(5)简化为公式(6):对于离散属性,本实施例假设所有属性都是条件独立的,因此本实施例可以通过公式(8)获得。对于连续属性,需要对样本假设一个先验概率分布。但是,在实际应用中,属性之间一般都不会满足条件独立性,因此本实施例采用公式(7)。对于所述测量样本的标记y~multinomial(φ1,φ2,......,φq),即p(y=cj)=φj,φj∈[0,1],本实施例可以得到公式(9),其中1{*}是指示函数。然后本实施例得到对数似然函数l(φ1,φ2,......,φq)通过最大化对数似然函数l(φ1,φ2,......,φq),如公式(11)所示:因为并且需要求解q-1个参数,本实施例可以分别对q-1个参数求偏导,如公式(12)所示,本实施例可以求解出参数,如公式(13)所示。因此,本实施例可以得到接着本实施例得到最后根据公式(9)得到p(yk)。利用公式(9)可以计算出的分类器预测值,同时也表示了油气储层的类别,将上述过程应用于不同规模及不同油井下的油品,能够得到各储层水淹程度。本实施例预测的类别可以指导并帮助制定储层开放方案。为了验证改进的mfbc分类模型的有效性,首先有必要用标准数据集进行测试。本实施例选取了五个经典的数据集,详细介绍如表1所示:表1标准数据集介绍table1specificationofstandarddatasets本实施例通过10折交叉验证来估计分类错误率,对于部分数据集存在缺失值的现象,为了能够获得更加准确的结果,本实施例采用直接删掉这些缺失值来处理。本实施例将mfbc算法与knn算法、svm算法以及adaboost算法进行比较,得到不同分类模型预测结果,如表2所示:表2不同分类模型的性能比较table2comparisonofperformanceofdifferentclassificationmodels从表2中可以看出,对于某些数据集mfbc算法要优于其他分类器,例如:userknowledgemodeling数据集、breastcancerwisconsin数据集和mammographicmass数据集,对于剩余的两个数据集,mfbc算法的准确率与其他分类器非常接近。为了进一步地验证mfbc算法的性能,本实施例选择了朴素贝叶斯分类器(nbc)、高斯概率分布贝叶斯分类器(gnb)和决策树分类器(c4.5)进行比较。此外,本实施例选择了breasttissue数据集、echocardiogram数据集、glass、parkinsons数据集、pima数据集、redwinequality数据集和wine数据集进行分析。图5为实施例一中朴素贝叶斯分类器、高斯概率分布贝叶斯分类器、决策树分类器与新型无模型贝叶斯分类器的分类结果比较示意图。如图5所示,针对大部分数据集,mfbc的准确率和稳定性要优于nbc、gnb以及c4.5。例如,对于echocardiogram数据集,mfbc的准确度要优于nbc大约145%;对于breasttissue数据集,mfbc的准确度要优于c4.5大约10.9%;对于glass数据集,mfbc的准确度要优于gnb大约45.6%;对于parkinsons数据集,mfbc的准确度要优于c4.5大约9.6%。从平均意义上来看,mfbc要优于nbc大约18%,优于gnb大约21%,优于c4.5大约11.07%,优于coec大约12.7%。因此,不管数据集属性之间是否独立,相比其他比较的分类器,mfbc算法都有着更好的或相近的准确度以及更稳定的性能。本实施例已经验证了mfbc分类模型的有效性,因此,接着将其应用于油气储层气相色谱图数据分析中。本实施例选取我国某油田稠油g18井块、j16井块和轻质油m19井块的地化色谱图数据为分析对象,为了能够获得一个更好的mfbc分类模型,同时防止训练网络模型出现过拟合或欠拟合现象,本实施例需要提取足够多的表征图谱特征的特征值。本实施例提取基础数据特征指标包括:峰数、最大值、最小值、平均值、中位数、众数、标准差、方差、偏斜度、峰度、峰值时间、拟合面积。实验部分特征数据如表3所示:表3不同储层下色谱图的特征指标数据table3characteristicindexdataofchromatogramwithdifferentreservoirs其中,peak1-peak5表示标志峰;area1-area3表示拟合分区面积;area(1+2)/3表示(area1+area2)/area3;area(1/2)表示(area1/area2)。下面对地化色谱图水淹程度的实例进行具体分析:本实施例用g18井块中的310个色谱图和m19井块中的334个色谱图提取数据作为训练样本集,使用10折交叉验证测试样本。分别比较knn、svm、adaboost和mfbc的泛化性能,最后得到预测准确率如表4所示:表4不同井块下不同分类器的准确率比较table4comparisonoftheaccuracyofdifferentclassifiersunderdifferentwell如表4所示,mfbc的准确率和稳定性要优于knn、svm以及adaboost。例如,对于g18井块,mfbc的准确度要优于knn大约47.6%,优于svm大约10.7%,优于adaboost大约60.6%;对于m19井块,mfbc的准确度要优于knn大约20.0%,优于svm大约7.1%,优于adaboost大约114%。本实施例选择g18和m19的5个数据集,进行分类错误率评估。图6为实施例一中knn算法、svm算法、adaboost算法与mfbc算法的分类结果比较示意图。如图6所示,knn、svm以及adaboost的平均分类错误率分别比mfbc高101%,33.3%,66.7%。至此,本实施例验证了mfbc分类模型在油气储层气相色谱图数据分析的有效性。由于mfbc模型比较好的分类性能和稳定性,因此本实施例对j16中的部分储层进行测量。参见图6,可以看出与其他三种分类器比较,mfbc模型的分类预测结果要更接近真实试油结果。因此在实际生产中,录井技术人员可以依据该种软测量方法,用来预测油气储层的水淹程度,确定储层开采价值,用于指导开采方案的制定。通过实验可以看出,由于mfbc模型的优越的、稳定的泛化性能,使其可以用于录井油气层解释评价地化色谱图的软测量,获得一个可信的储层类别,从而可以更好地指导油气储层的探明和高效开发。本实施例提供的新型无模型贝叶斯分类预测模型软测量方法之中,首先通过曲线拟合方法有效地实现对气相色谱图数据的降维和降噪,进而提取气相色谱图数据的特征值,从而缩短分类模型的训练时间而且能够获得更好的泛化能力。本实施例使用新型无模型贝叶斯分类算法建立识别模型,这样可以有效避免由于训练样本不满足条件独立性而造成的模型泛化性能下降问题。本实施例提供的新型无模型贝叶斯分类预测模型软测量方法通过气相色谱图的测量客观展现了不同条件下油气储层的水淹程度,指明了各油气储层的水淹程度与开采价值,有助于石油钻探公司进一步提高开采效率和降低成本。因此,本实施例提供的新型无模型贝叶斯分类预测模型软测量方法具有有效性和适用性。可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。当前第1页12当前第1页12