发布网友 发布时间:2022-04-22 06:54
共1个回答
热心网友 时间:2022-06-17 00:14
高海余 赵鹏大
(中国地质大学资源学院,武汉 430074)
王家华
(西安石油学院计算机系,西安 710065)
摘要 基于贝叶斯方法,本文提出了一种用于计算地质现象分类问题中识别概率的近似模型。为集成空间数据和计算识别概率,本文还给出了一种变量的编码方法,该方法可以考虑地质学家的冒险心理和原始变量的可信度。信息熵已被广泛地应用于度量地质信息的不确定性。遗憾的是,熵并非一定能直接作为选择最优钻探位置的标准。为此,本文还提出了一种用于选择最优钻探位置的伪熵标准。最后,讨论了一个气田的案例研究。
关键词 钻井位置 评价井 油气 分类 变量的编码 贝叶斯方法
1 引言
在油气勘探中,一旦在一个圈闭内发现了工业油气流,接着就是对该圈闭进行评价,以便估计或确定该油气藏的范围。为此,通常需要进行评价钻探,即需要设计一些评价钻探井位。
广义而言,设计钻探位置是一种空间不等概抽样问题。在空间抽样设计方面,已经有相当多的文献可供参考[1~5]。地球科学中的空间抽样方法通常与数据集成技术和分类技术有关。鉴于油气勘探中的复杂性和高成本特征,拥有一些有效的数据集成技术和分类技术是特别重要的。正因为如此,分类和集成问题也被众多的研究者所关注[6~9]。
在有关抽样设计的文献中,应用最广泛的标准是最小化给定区域内估计方差的某种形式[10,5]。另外,研究者还提出了其它的一些标准,例如,最小化分类错误的代价标准[11]和最小化真值与估计量有明显差别的区域的面积标准[12]。
本文主要研究如下问题:基于多种油气勘探中的地球物理变量,建立一种适当的选择评价钻探井位的模型。其中,该评价井的目的是为了确定油气藏范围。假设所研究区域的范围相当于一个含油气圈闭的大小。基于贝叶斯方法,本文提出了一种用于计算分类问题中识别概率的近似模型。为集成空间数据和计算识别概率,本文还给出了一种变量的编码方法,该方法可以考虑地质学家的冒险心理和原始变量的可信度。另外,文中还提出了一种用于选择最优钻探位置的伪熵标准。最后,讨论了一个气田的案例研究。
2 分类问题的识别概率
假设所研究区域可被划分为两类;A和
。D(x)是一个指示函数,即,
如果x∈A,则D(x)=1,否则D(x)=0。
地质现象的分类通常依赖于一些地质特征。一般地,假设这样的分类与地质环境变量gi(x)(i=1,2,…,v)有关,其中x是空间位置点。称gi(x)为地质环境变量的原因是这些变量可能不像其它地质变量那样可以直接得到,而是需要通过分析、计算或某种集成过程得到。另外,地质环境变量表示了综合的地质特征。例如,g1(x)可能表示综合的生油条件。g2(i=1,2,…,v)可以是离散的,也可以是连续的,Gi(x)为相应的随机函数。记
数学地质和地质信息
在本文的后面将看到,在某种线性假设条件下,地质环境变量并不需要实际计算出来。
将研究区域划分为A和A是一种分类问题。处理这类问题的一种合理的方法是估计如下形式的条件概率:
数学地质和地质信息
当P[G(x)=g(x)]=0时,方程(1)没有意义。因此,对给定的x,如果下面的极限存在:
数学地质和地质信息
则称极限P[D(x)=1|G(x)-g(x)]为事件{D(x)=1)在条件{G(x)=g(x)}下的广义条件概率。从应用角度讲,可将公式(1)中的条件概率pA(x)称为将个体x划分为类A的识别概率。
根据贝叶斯公式,得
数学地质和地质信息
假设gi(x)(i=1,2,…,v)是连续的。对很小的εi(i=1,2,…,u),有如下的两个等价无穷小关系式:
数学地质和地质信息
其中f[y1,y2,…,yv]是随机函数Gi(x)(i=1,2,…,v)的联合概率密度,F(D)[y1,y2,…,yv]是Gi(x)(i=1,2,…,口)在条件{D(z)=1}下的联合条件概率密度。
根据方程(1)到(4)以及p0(x)=P[D(x)=1],可得到:
数学地质和地质信息
如果gi(x)(i=1,2,…,v)是离散的,对适当小的εi,不等式|Gi(x)-gi(x)|≤εi,可等价地表示为G(x)=gi(x)。相应地,可得,
数学地质和地质信息
如果抽样过程具有代表性(无误差抽样),那么,一般来说,方程(5)分母的密度值和方程(6)分母的概率值可以近似地看作常数,比如分别记为C-1和C-11。事实上,这是很自然的,因为我们没有任何理由可用于说明在不同位置x处,事件{Gi(x)=gi(x)}发生的概率有明显的变化。因此,方程(5)和(6)可近似地写为:
数学地质和地质信息
如果Gi(x)(i=1,2,…,v)相互独立,可将方程(7)和(8)表示为:
数学地质和地质信息
式中:
是f(D)(y1,y2,…,yv)的边缘密度。
2.1 布井的局部有利性
值得注意的是,现在的目的是选择一些勘探井位,以便确定油气藏的范围。因此,最有利的选择部位应该在含油气边界附近。本小节主要讨论在研究区域内,一个点位于含油气边界曲线上的概率。
假设研究区域V的范围基本上相当于一个含油气圈闭的大小。具体地说,有利区域V是通过区域勘探和地质解释得到的;在该区域内,生油、运移和保存条件都较好,并且可以忽略。需要考虑的因素主要是储层的构造和物性条件。
假设A为V内含油气边界曲线上的点构成的集合。gS(x)和gR(x)分别为储层构造和物性环境变量,即,gS(x)表示储层综合构造条件,gR(x)表示综合物性条件。GS(x)和GR(x)为相应的随机函数。令
G(x)=[GS(x),GR(x)],和g(x)=[gS(x),gR(x)]
以下假设G(x)是连续的。类似的证明过程也适应于当G(x)为离散的情况。根据方程(7),可得到
数学地质和地质信息
像在引言中所讨论的那样,由于我们的目的是设计一些最优的评价钻探位置,以便估计油气藏范围。而方程(9)表示了在位置点x设计一口评价井的有利性,所以问题的关键是选择一种适当的计算二元概率密度F(D)[gS(x),gR(x)]的模型。在此,F(D)[gS(x),gR(x)]表示了点x位于含油气边界曲线上的可能性。
2.2 线性假设
假设
(x)(i=1,2,…,m1)为所研究区域内的构造变量(表示储层顶面构造特征),
(x)(i=1,2,…,m2)为储层物性变量(表示储层的岩石地球物理性质)。
(x)(i=1,2,…,m1)和
(x)(i=1,2,…,m2)是相应的随机函数。
为简单起见,自然地可以假设
数学地质和地质信息
式中:
为在{D(x)=1}已发生情况下,事件{Z(x)=z(x)}的条件密度。权λi和βi可由地质学家来估计,其中
。权λi(i=1,2,…,m1)或βi(i=1,2,…,m2)之间的差别表示了这些变量的可信度,包括该变量本身的可信度(由于测量和解释误差的影响)以及该变量作为含烃指标的重要性的差别。方程(10)的假设说明,综合构造变量和综合物性变量的条件概率密度
和
,可以被分别解释为相应变量条件概率密度的线性组合。
在方程(10)的假设条件下,并不要求gS(x)和gR(x)是已知的,但却要求每一个变量2(x)所对应的条件密度
是已知的。
利用贝叶斯公式,可以得到
数学地质和地质信息
或
数学地质和地质信息
直观上看,方程(11)可能比方程(12)更适合于需要。因为,一般来说,构造变量比物性变量的可靠性更强。这样,可将方程(9)写为
数学地质和地质信息
方程(13)相当于分别在条件{GS(x)=gS(x)}和{GR(x)=gR(x)}之下,连续两次应用贝叶斯公式计算{D(x)=1}的后验概率的结果。
另外,可以将方程(13)中的
]看成是在条件{GS(x)=gS(x)}之下
的修正量。由于所研究现象的复杂性,人们不能得到有关条件密度
与两个边缘密度
和
]之间的任何关系式。因此,可以应用线性模型,即,假设
数学地质和地质信息
其中的a称为修正因子。这样,可将方程(13)写为
数学地质和地质信息
如果α=0,则方程(15)将退化为
数学地质和地质信息
方程(16)相当于GS(x)和GR(x)相互独立的情况。
对于构造油气藏,在勘探阶段,通常可以认为储层物性变量独立于构造变量,因此,可以设定α=0。如果物性变量的可信度(由于误差的影响)值得怀疑,那么可以选取适当的α,以便修正
3 变量的编码
根据原始变量z(x)计算
相当于信息论中的编码过程。因此,也可以将
称为编码函数。对于特定的布井目的,位置x处的函数值
,从变量z(x)的角度,度量了在该位置设计一口探井的局部有利性。为方便起见,将变量
称为相应于原始变量z(x)的特征变量。
在最有利于设计勘探井的位置处,特征变量将取得最大值,而在最不利的位置处将取得最小值。一般来说,在一个点处设计一口井的有利性将随着该点特征值的增加而增大。具体地说,对于给定的布井目的,最有利于设计勘探井的位置应该在含油气边界附近,而最不利的部位应该在已证实的含油气区域之内和已证实的不含油气的区域之内。一个变量的编码函数的最大值称为该变量的有利特征值。
特征变量的分布特征依赖于编码函数的模型。编码函数的曲线形状可以表示地质学家的冒险心理和原始变量的可靠性程度。根据编码函数的曲线形状及其功能,可以将编码函数分为如下几种不同的类型:
(a)保守型(conservative)(图1a);
(b)平均型(average)(图1b);
(c)冒险型(adventurous)(图1c);
(d)模糊型(fuzzy)(图1d)。
图1 四种编码函数
横轴的正向指向含油气有利性的增加,纵轴表示编码值。zm为变量的有利特征值。h是任意常数
模型(a)、(b)和(c)适合于具有较高可信度的变量的编码;而模型(d)只适合于可信度较低的变量的编码。
如下的Beta(贝塔)密度函数就是一种简单而且有效的编码函数,同时对于不同的参数,它还具有以上的特征。
数学地质和地质信息
式中:K=Γ(a+b)/[Γ(a)Γ(b)(t1-t0)a+b-2],Γ(α)是Γ函数,a和b为参数。B(z;a,b)取得最值大的点为:
zm≡[(b—1)t0+(a-1)t1]/(a+b—2)。称(t0,t1)为变量z=z(x)的有利特征区间,zm为z=z(x)的有利特征值。
对于给定的布井目的,变量的有利特征区间表示了这样的区间,其中该变量在含油气边界曲线附近的值几乎都包含在该区间之内,而在远离含油气边界处,该变量的值几乎都不包含在该区间之内。类似地,变量的有利特征值相当于该变量沿着含油气边界曲线上所取得的值。
当b>a≥1时,B(z;a,b)为图1a所示的保守型模型;当a=b>1时,B(z;a,b)为图1b所示的平均型模型;当a>b≥1时,B(2;a,b)为图1c所示的冒险型模型;当a=b=1时,B(z;a,b)为图1d所示的模糊型模型。显然,η=a/b表示了冒险的程度。因此,可以将η称为冒险度。
在对变量编码之前,应先确定该变量的有利特征区间、有利特征值和冒险度。显然,利用有利特征区间及参数a和b也可计算有利特征值和冒险度。图2表示了储层顶面构造变量的编码过程。保守主义者会选择那种使得顶面构造变量在油水接触面之上处的编码值大于其在油水接触面之下处的编码值的编码函数模型;冒险主义者会与保守主义者相反;而平均主义者会利用对称的编码函数。
图2 构造变量的编码(t0,t1)是变量的有利特征区间,zm是变量的特征值
4 选择井位的伪熵标准
基于由方程(15)所计算的每一位置x∈V的条件概率pA(x),根据某种适当的标准或方法,比如滑动划分(moving dividing)方法[13],就可以对以估计油气藏范围为目的的评价钻探的最优井位作出适当的选择。然而,本节提出一种选择最优勘探井位的伪熵标准。
假设{y1,y2,…,yn}为离散随机变量y的样本空间。p(yi)表示现实yi发生的概率,其中
。那么,{y1,y2,…,yn}的熵H(y)为
数学地质和地质信息
其中r>0,通常等于2或e(自然对数的底数)。
熵已被广泛地用于度量地质信息的不确定性[4,14]。然而,很明显,(18)式的熵H(y)不能直接作为选择最优钻探井位的标准。
根据信息熵的定义,假设xi(i=1,2,…,n)为空间位置,且X={x1,x2,…,xn)。由方程(15)计算的pA(xi)表示位置xi(i=1,2,…,n)发生的概率。那么,定义
数学地质和地质信息
并称Hp(X)为X的伪熵。
公式(19)的伪熵Hp(X)有如下性质:(1)概率pA(xi)可能不满足规一化条件
。因此,X={x1,x2,…,xn)可能并不是某个随机变量的样本空间。从而,Hp(X)不同于信息论中的熵。
(2)由于当0<r<1且y>e-1时,函数f(y)=-ylogry是严格递增的,因此,当0<r<1且pA(xi)e-1(i=1,2,…,n)时,Hp(X)也是严格递增的。
(3)假设0<r<1,由于0≤pA(xi)≤1(i=1,2,…,n),因此,Hp(X)≤0。又由于当pA(xi)=e-1(i=1,2,…,n)时,Hp(X)取得最小值ne-1/lnr。这样
为正数。
由伪熵的第二个性质可知,将Hp(X)或Hp(X)作为选择最优钻探井位的标准是比较合理的。另外,如果两个勘探井位之间的距离太近显然是不恰当的。因此,根据(20)式,可以将伪熵标准叙述为最大化如下的目标函数:
数学地质和地质信息
并满足约束条件:
数学地质和地质信息
式中:d(xi,xj)为两点xi和xj之间的欧氏距离,
(k=1,2,…,m)为现有井的位置,L和L0是常数。在应用伪熵标准时,由于参数r的变化不影响所优选的钻探位置的结果。因此,可令r=e-1。
利用方程(15),只能得到识别概率的相对值。这些值可能太大,也可能太小。因此,通常需要将这些识别概率的相对值规一化,以便使它们不小于0且不大于1,同时使得在有利钻探区内所得到的这些值的大多数都大于e-1。
5 应用研究
图3 储层顶面构造图
封闭的粗线多边形表示由20口井的资料所估计的含油气边界。该边界所包含的区域可看作是研究区域的含油气范围。研究区域被划分为26×31的网格
研究区域和有效数据与文献[13]的案例研究相同,即有效数据为储层的顶面构造、孔隙度、层速度和地震波频率。图3表示了该储层顶面构造的变化特征,其中,封闭的粗折线多边形是由20口井的钻井资料和地质解释所得到的含气边界。可以认为该边界真实地表示了所研究储层的含气范围。将研究区域划分为26×31的网格(25×30个单元)。
图4 识别概率图和优选井位结果
另外,图3还给出了勘探早期最先所钻的仅有的三口井的位置。现在的问题是根据以上所给出的四种变量(参数)和这三口井的位置资料,在西部断层的东侧(图3)设计四个探井的位置,以便估计该气藏的范围。在该例中,储层顶面构造为构造变量,其它三种变量均为物性变量。以下用伪熵标准来选择这四口探井的位置。
首先,根据(15)式计算在25×30=750个单元中心点处的识别概率。其中,选择模糊先验,即p0(x)为常数;取(15)式中的修正因子为α=0.2。然后,基于各变量的分布特征[13],表1给出了计算识别概率的其它参数。图4用符号表示了(正规化以后的)识别概率的分布特征。
表1 计算识别概率的参数
从750个单元中选择出其识别概率(正规化以后的)大于0.4的120个单元,并将它们作为新钻探位置的候选位置。选取L=Lo=800m。最后,图4给出了利用伪熵标准所选出的四个新钻探位置。显然,优化的新钻探位置接近于真实的含气边界。因此,就该例而言,本文讨论的方法是有效的。
6 结论
在设计最优钻探位置的研究中,拥有一种有效的集成和分类技术是相当重要的。基于贝叶斯方法,本文提出了一种用于计算分类问题中识别概率的近似模型。该模型可以集成多种地球物理变量。为集成空间数据和计算识别概率,本文还给出了一种变量的编码方法,该方法可以考虑地质学家的冒险心理和原始变量的可信度。
信息熵已被广泛地应用于度量地质信息的不确定性。遗憾的是,熵并非一定能直接作为选择最优钻探位置的标准。为此,本文还提出了一种用于选择最优钻探位置的伪熵标准。
参考文献
[1]D.R.Davis,L.Duckstein and R.Krysztofowicz.The Worth of Hydrologic Data for Nonoptimal Decision Making.Water Resources Research,1979,15:1733~1742.
[2]D.Veneziano and P.K.Kitanidis.Sequential Sampling to Contour an Uncertain Function.Math.Geology,1982,15:387~404.
[3]S.K.Thompson.Sampling.John Wiley&Sons,Inc.,NewYork,1992.
[4]G.Christakos.Random Field Models in Earth Sciences.Academic Press,Inc.,1992.
[5]H.Y.Gao,J.H.Wang and P.D.Zhao.The Updated Kriging Variance and Optimal Sample Design.Math.Geology,1996,28:295~313.
[6]H.Zhu and A.G.Journel.Formatting and Integrating Soft Data:Stochastic Imaging Via the Markov-Bayes Algorithm.In:4th Int.Geostatistics Congress,13~18 Sept.1992.
[7]M.A.Oliver and R.Webster.A Geostatistical Basis for Spatial Weighting in Multivariate Classification.Math.Geology,1989,21:15~35.
[8]U.C.Herzfeld and D.F.Merriam.Optimization Techniques for Integrating Spatial Data.Math.Geology,1995,27:559~588.
[9]C.Barcelo,V.Pawlowsky and E.Grunsky.Classification Problems of Samples of Finite Mixtures of Compositions.Math.Geology,1995,27:129~148.
[10]R.J.Barnes.Sample Design for Geologic Site Characterization.In:Geostatistics,Vol.2.M.Armstrong(Ed.).Kluwer,Dordrecht,1989,809~822.
[11]D.Aspie and R.J.Barnes.Infill-Sampling Design and the Cost of Classification Errors.Math.geology,1990,22:915~932.
[12]A.G.Watson and R.J.Barnes.Infill Sampling Crieriato Locate Extremes.Math.Geology,1995,27:589~608.
[13]赵鹏大,王家华,高海余.钻探位置的最优化和空间抽样概率.(本卷论文集)
[14]G.Christakos.A Bayesian/Maximum-Entropy View to the Spatial Estimation Problem.Math.Geology,1990,22:76:~777.