本發(fā)明涉及儲層地質(zhì)建模
技術(shù)領(lǐng)域:
:,具體地指一種基于p-stable局部敏感哈希檢索數(shù)據(jù)樣式的多點(diǎn)地質(zhì)統(tǒng)計建模方法(LSHSIM,LocalSensitiveHashingSimulation)。
背景技術(shù):
::基于多點(diǎn)地質(zhì)統(tǒng)計學(xué)建模算法對油田高效開發(fā)具有重要支持作用。Arpat在2003年Stanford油藏預(yù)測中心會議上提出基于樣式的多點(diǎn)地質(zhì)統(tǒng)計學(xué)算法SIMPAT,算法SIMPAT把圖像重建思想引入到儲層地質(zhì)建模里,核心思想是匹配“數(shù)據(jù)樣式”和“數(shù)據(jù)事件”之間的相似度,具體過程是首先匹配先驗(yàn)地質(zhì)模式庫(即樣式數(shù)據(jù)庫)中與模擬工區(qū)待估區(qū)域(數(shù)據(jù)事件)的相似性度量最大的儲層模式(數(shù)據(jù)樣式);然后把該儲層模式(數(shù)據(jù)樣式)覆蓋替模擬工區(qū)待估區(qū)域(數(shù)據(jù)事件)。隨著油田開發(fā)的不斷深入,地質(zhì)研究的精度越來越高,從而地質(zhì)模型的尺度越來越小,例如很多開發(fā)中后期的老油田,地質(zhì)建模的精度達(dá)到平面網(wǎng)格劃分為10m×10m,縱向0.5m,甚至更小。目前普遍采用隨機(jī)模擬技術(shù)建立地質(zhì)模型,通常需要建立多個實(shí)現(xiàn)(如100個),甚至是四維模型,因此,地質(zhì)建模的效率逐漸成為關(guān)注的熱點(diǎn)問題。計算熱點(diǎn)是程序代碼需要耗費(fèi)大量時間運(yùn)行的部分,通常是算性能瓶頸,算法SIMPAT的計算熱點(diǎn)主要圍繞于匹配數(shù)據(jù)事件與龐大數(shù)量的樣式數(shù)據(jù)庫所有樣式的相似性計算,計算性能成為普及基于樣式建模算法的瓶頸。限制了算法SIMPAT的應(yīng)用。因此,急需研究一種針對SIMPAT算法的加速計算改進(jìn)方法,從而能高效地基于樣式匹配策略進(jìn)行多點(diǎn)地質(zhì)統(tǒng)計建模。技術(shù)實(shí)現(xiàn)要素:本發(fā)明目的在于提供一種能夠提高基于樣式多點(diǎn)地質(zhì)統(tǒng)計建模算法計算效率的方法(即基于p-stable局部敏感哈希檢索數(shù)據(jù)樣式的多點(diǎn)地質(zhì)統(tǒng)計建模方法)。相比SIMPAT算法,本算法極大提高多點(diǎn)地質(zhì)統(tǒng)計學(xué)建模算法的效率。本發(fā)明LSHSIM算法基于局部敏感哈希技術(shù)檢索相似數(shù)據(jù)樣式,首先統(tǒng)計樣式數(shù)據(jù)庫的全部數(shù)據(jù)樣式的分塊網(wǎng)格內(nèi)變量值之和,將分塊網(wǎng)格轉(zhuǎn)換為數(shù)據(jù)樣式的特征向量,進(jìn)而基于p-stable局部敏感哈希算法計算特征向量的哈希值,把哈希值相同(相似)的數(shù)據(jù)樣式保存在相同的哈希桶中,構(gòu)成數(shù)據(jù)樣式哈希庫。模擬時先基于p-stable局部敏感哈希算法計算數(shù)據(jù)事件的哈希值,然后從數(shù)據(jù)樣式哈希庫中檢索相同哈希桶的數(shù)據(jù)樣式,再計算比較數(shù)據(jù)事件與這些數(shù)據(jù)樣式的相似度,最終找出最相似的數(shù)據(jù)樣式。本發(fā)明是基于哈希算法查找最相似數(shù)據(jù)樣式,因此極大提高了模擬的效率。為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種基于p-stable局部敏感哈希檢索數(shù)據(jù)樣式的多點(diǎn)地質(zhì)統(tǒng)計建模方法,包括以下步驟:1)輸入訓(xùn)練圖像TI,定義模擬實(shí)現(xiàn)R的尺寸、數(shù)據(jù)樣板T的尺寸;2)設(shè)置分塊網(wǎng)格BlockGrid的尺寸,輸入p-stable局部敏感哈希的參數(shù),包括哈希桶寬w,哈希表數(shù)量N;3)用數(shù)據(jù)樣板T掃描訓(xùn)練圖像TI,建立樣式數(shù)據(jù)庫PatDB;4)統(tǒng)計全部數(shù)據(jù)樣式的分塊網(wǎng)格塊內(nèi)變量之和,得到數(shù)據(jù)樣式的特征向量,然后進(jìn)行p-stable局部敏感哈希計算,得到數(shù)據(jù)樣式哈希庫PatLSHLib;5)根據(jù)模擬實(shí)現(xiàn)R創(chuàng)建隨機(jī)路徑;6)如果隨機(jī)路徑里有未模擬節(jié)點(diǎn)U,進(jìn)入下述步驟7)的路徑;否則進(jìn)入下述步驟11)的路徑;7)提取節(jié)點(diǎn)U處的數(shù)據(jù)事件DataEvent,統(tǒng)計數(shù)據(jù)事件的分塊網(wǎng)格塊內(nèi)變量之和,得到數(shù)據(jù)事件的特征向量,進(jìn)行p-stable局部敏感哈希計算,得到數(shù)據(jù)事件的哈希值DevLSH;8)從數(shù)據(jù)樣式哈希庫PatLSHLib中檢索與數(shù)據(jù)事件哈希值DevLSH哈希桶號相同的數(shù)據(jù)樣式,構(gòu)成目標(biāo)數(shù)據(jù)樣式庫ANNPatDB;9)從目標(biāo)數(shù)據(jù)樣式庫ANNPatDB查找與數(shù)據(jù)事件Dev相似度值最大的數(shù)據(jù)樣式Pat;10)用數(shù)據(jù)樣式Pat整體覆蓋并凍結(jié)模擬實(shí)現(xiàn)R里節(jié)點(diǎn)U處的部分;返回上述步驟6);11)模擬結(jié)束,輸入模擬實(shí)現(xiàn)R。作為優(yōu)選方案,所述步驟4)中,根據(jù)數(shù)據(jù)樣式即事件的網(wǎng)格尺寸進(jìn)行分塊,建立分塊網(wǎng)格,統(tǒng)計每個塊內(nèi)所有節(jié)點(diǎn)值之和,公式為其中,ICount、JCount是訓(xùn)練圖像網(wǎng)格在水平和垂直兩個方向上的網(wǎng)格數(shù)量,MCount、NCount是分塊網(wǎng)格在水平和垂直兩個方向上的網(wǎng)格數(shù)量,BlockGridm,n是索引[m,n]的分塊內(nèi)所有節(jié)點(diǎn)值之和,TIGridi,j是訓(xùn)練圖像網(wǎng)格中索引[i,j]的節(jié)點(diǎn)值,sum表示求和計算。作為優(yōu)選方案,所述步驟4)中,將分塊網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為線性數(shù)據(jù)結(jié)構(gòu)后就可作為p-stable局部敏感哈希算法的數(shù)據(jù)輸入,分塊網(wǎng)格的線性數(shù)據(jù)結(jié)構(gòu)索引與二維數(shù)據(jù)結(jié)構(gòu)索引關(guān)系為BlockGridi=BlockGridm,n,其中i=m*NCount+n其中i是分塊網(wǎng)格的線性索引,m和n是分塊網(wǎng)格的二維索引。表1為圖2中4個數(shù)據(jù)樣式(事件)的分塊網(wǎng)格統(tǒng)計值,屬于線性索引數(shù)據(jù)結(jié)構(gòu)。表1基于BlockGrid計算數(shù)據(jù)樣式(事件)的特征向量作為優(yōu)選方案,所述步驟4)中,數(shù)據(jù)樣式存在沒有變量值的節(jié)點(diǎn),把訓(xùn)練圖像的變量最小值作為空變量參與統(tǒng)計計算,公式為其中,TI是訓(xùn)練圖像,minTI是訓(xùn)練圖像的變量最小值,var是數(shù)據(jù)事件里節(jié)點(diǎn)的變量值,如果數(shù)據(jù)事件某個節(jié)點(diǎn)為空(NULL),則以訓(xùn)練圖像的變量最小值替換空值參與計算。本發(fā)明的算法核心思想本發(fā)明基于分塊網(wǎng)格框架計算數(shù)據(jù)樣式(事件)的特征向量,然后使用p-stable局部敏感哈希方法將這些特征向量散列到多個哈希表里。根據(jù)局部敏感哈希的定義,在同一個哈希表中,相似的數(shù)據(jù)樣式(事件)處于同一個哈希桶的概率遠(yuǎn)遠(yuǎn)大于不相似的數(shù)據(jù)樣式(事件)。建模時,使用相同參數(shù)設(shè)置提取數(shù)據(jù)事件的特征向量及p-stable局部敏感哈希計算其在哈希表中的哈希桶號,取出這些哈希桶中所有的數(shù)據(jù)樣式稱之為相似最鄰近的樣式數(shù)據(jù)庫。比較數(shù)據(jù)與相似最鄰近的樣式數(shù)據(jù)庫中所有數(shù)據(jù)樣式的曼哈頓距離,選擇曼哈頓距離最小的數(shù)據(jù)樣式整體覆蓋數(shù)據(jù)事件,完成該次模擬。局部敏感哈希的定義是如果一個函數(shù)族滿足以下條件(D為空間距離度量,P表示概率)1)若空間中兩點(diǎn)p和q之間的距離D(p,q)<r1,則P{h(p)==h(q)}>p12)若空間中兩點(diǎn)p和q之間的距離D(p,q)>r2,則P{h(p)==h(q)}<p2在r1<r2,p1>p2的條件下有意義,則函數(shù)族H是局部敏感的。局部敏感哈希方法可以通過映射計算使得距離較近的點(diǎn)映射到同一個位置的概率大,距離較遠(yuǎn)的點(diǎn)映射到同一個位置的概率小。基于p-stable分布的局部敏感哈希算法利用p-stable的思想對每個特征向量v賦予一個哈希值h。由于該哈希函數(shù)是局部敏感的,因此假設(shè)兩個特征向量v1和v2非常近,它們的哈希值將映射到相同桶中的概率非常大?;趐-stable分布的哈希函數(shù)定義為ha,b(v):Rd→N(1)映射一個d維的特征向量v到一個整數(shù)集。哈希函數(shù)中有兩個隨機(jī)變量a和b,其中a是一個d維的隨機(jī)向量,歐式距離是定量表征d維空間中兩個點(diǎn)之間距離的距離變量,歐式距離里的局部敏感哈希函數(shù)定義為其中,a是一個服從p-stable分布的獨(dú)立隨機(jī)向量,w是桶寬,b是[0,w]范圍內(nèi)的隨機(jī)數(shù)。圖1通過一個示例說明了基于p-stable局部敏感哈希算法的原理:二維平面上有n=5個黃色點(diǎn)。查詢與藍(lán)色點(diǎn)最靠近的黃色點(diǎn),傳統(tǒng)查詢方法是計算藍(lán)色點(diǎn)與所有黃色點(diǎn)的歐式距離并進(jìn)行排序,取距離值最小的黃色點(diǎn),傳統(tǒng)查詢方法的計算時間復(fù)雜度O(n)?;趐-stable的局部敏感哈希算法根據(jù)給定的隨機(jī)向量a對所有黃色點(diǎn)及藍(lán)色點(diǎn)進(jìn)行投影計算,假定3個不同投影軸X1、X2和X3,每個投影軸根據(jù)桶寬w劃分為多個哈希桶,所有的點(diǎn)經(jīng)投影后落在不同桶里,查詢與藍(lán)色點(diǎn)桶號相同的黃色點(diǎn)。示例中與藍(lán)色點(diǎn)位于相同哈希桶的黃色點(diǎn)有投影軸X2里的點(diǎn)1、投影軸X3中的點(diǎn)2,計算藍(lán)色點(diǎn)與其相同哈希桶里所有黃色點(diǎn)的歐式距離,取距離值最小的點(diǎn)作為查詢結(jié)果。對比查詢時間,傳統(tǒng)查詢時間復(fù)雜度為O(5),基于p-stable局部敏感哈希的查詢時間復(fù)雜度O(2),提高了查詢效率。本發(fā)明根據(jù)數(shù)據(jù)樣式(事件)的網(wǎng)格尺寸進(jìn)行分塊(圖2),建立分塊網(wǎng)格(BlockGrid),統(tǒng)計每個塊(Block)內(nèi)所有節(jié)點(diǎn)值之和,公式為其中ICount、JCount是訓(xùn)練圖像網(wǎng)格在水平和垂直兩個方向上的網(wǎng)格數(shù)量,MCount、NCount是分塊網(wǎng)格在水平和垂直兩個方向上的網(wǎng)格數(shù)量,BlockGridm,n是索引[m,n]的分塊內(nèi)所有節(jié)點(diǎn)值之和,TIGridi,j是訓(xùn)練圖像網(wǎng)格中索引[i,j]的節(jié)點(diǎn)值,sum表示求和計算。將分塊網(wǎng)格數(shù)據(jù)轉(zhuǎn)換為線性數(shù)據(jù)結(jié)構(gòu)后就可作為p-stable局部敏感哈希算法的數(shù)據(jù)輸入,分塊網(wǎng)格的線性數(shù)據(jù)結(jié)構(gòu)索引與二維數(shù)據(jù)結(jié)構(gòu)索引關(guān)系為BlockGridi=BlockGridm,n,其中i=m*NCount+n(4)其中i是分塊網(wǎng)格的線性索引,m和n是分塊網(wǎng)格的二維索引。表1為圖2中4個數(shù)據(jù)樣式(事件)的分塊網(wǎng)格統(tǒng)計值,屬于線性索引數(shù)據(jù)結(jié)構(gòu)。圖1的數(shù)據(jù)樣式[a]與數(shù)據(jù)樣式[b]的幾何形態(tài)非常相似,相應(yīng)表1中對應(yīng)分塊網(wǎng)格的特征向量十分相近。反之?dāng)?shù)據(jù)樣式[a]與數(shù)據(jù)樣式[c]的形狀和特征向量均具有較大差別。模擬時,需要計算數(shù)據(jù)事件的特征向量,數(shù)據(jù)事件可能存在沒有變量值的節(jié)點(diǎn)。此時,把訓(xùn)練圖像的變量最小值作為空變量參與統(tǒng)計計算,公式為本發(fā)明的有益效果在于:本發(fā)明引進(jìn)局部敏感哈希檢索技術(shù)到多點(diǎn)地質(zhì)統(tǒng)計建模,極大提高了建模時判別查詢用于替換數(shù)據(jù)事件的數(shù)據(jù)樣式的計算效率,增強(qiáng)了多點(diǎn)地質(zhì)統(tǒng)計建模方法的實(shí)用性。附圖說明圖1為基于p-stable局部敏感哈希算法的檢索原理示意圖;圖2為基于BlockGrid計算數(shù)據(jù)樣式(事件)的特征向量原理;圖3為算法LSHSIM的流程圖;圖4為算法LSHSIM建模實(shí)例-沉積相類型變量(分類變量),圖中,a為訓(xùn)練圖像,b為模擬實(shí)現(xiàn)圖;圖5為算法LSHSIM建模實(shí)例-孔隙度類型變量(連續(xù)變量),圖中,a為訓(xùn)練圖像,b為模擬實(shí)現(xiàn)。具體實(shí)施方式為了更好地解釋本發(fā)明,以下結(jié)合具體實(shí)施例進(jìn)一步闡明本發(fā)明的主要內(nèi)容,但本發(fā)明的內(nèi)容不僅僅局限于以下實(shí)施例。說明基于局部敏感哈希的多點(diǎn)地質(zhì)統(tǒng)計學(xué)建模方法LSHSIM之前,首先定義相關(guān)術(shù)語:1、網(wǎng)格單元(C—Cell):沿著X方向、Y方向和Z方向上具有指定長(ISize)、寬(JSize)、高(KSize)的矩形立方單元,網(wǎng)格單元存儲具體數(shù)值代表其屬性。2、網(wǎng)格體(G—Grid):由很多網(wǎng)格單元C構(gòu)成的三維結(jié)構(gòu)體,在X方向、Y方向和Z方向的維度是I×J×K,本質(zhì)是三維矩陣。G(i,j,k)的含義是X方向索引等于i、Y方向索引等于j、Z方向索引等于k的網(wǎng)格單元。3、訓(xùn)練圖像(TI—TrainImage):先驗(yàn)地質(zhì)概念模型,采用網(wǎng)格體GTI作為數(shù)據(jù)載體,是能夠表述實(shí)際儲層結(jié)構(gòu)、幾何形態(tài)及其分布模式的數(shù)字化模型。4、模擬實(shí)現(xiàn)(R—Realization):模擬的模型結(jié)果,采用網(wǎng)格體GR作為數(shù)據(jù)載體,是能夠表述實(shí)際儲層結(jié)構(gòu)、幾何形態(tài)及其分布模式的數(shù)字化模型。5、數(shù)據(jù)樣板(T—Template):圍繞中心單元對稱的結(jié)構(gòu)體,采用網(wǎng)格體GT作為數(shù)據(jù)載體,是能夠表述實(shí)際儲層結(jié)構(gòu)、結(jié)合形態(tài)及其分布模式的局部數(shù)字化模型,是基于樣式的多點(diǎn)地質(zhì)統(tǒng)計學(xué)建模方法的基本結(jié)構(gòu)單元。6、數(shù)據(jù)樣式(Pat—Pattern):以數(shù)據(jù)樣板為框架掃描訓(xùn)練圖像得到的局部空間數(shù)據(jù)組合體,采用網(wǎng)格體GPat作為數(shù)據(jù)載體。7、數(shù)據(jù)事件(Dev—DataEvent):以數(shù)據(jù)樣板為框架掃描模擬實(shí)現(xiàn)得到的局部空間數(shù)據(jù)組合體,采用網(wǎng)格體GDev作為數(shù)據(jù)載體。6、樣式數(shù)據(jù)庫(PatDB—PatternDatabase):使用數(shù)據(jù)樣板掃描訓(xùn)練圖像可以獲取該訓(xùn)練圖像的所有數(shù)據(jù)樣式,稱為樣式數(shù)據(jù)庫。7、區(qū)塊網(wǎng)格(BlockGrid—BlockGrid):基于分塊框架計算數(shù)據(jù)樣式(事件)的塊內(nèi)所有變量值之和,是數(shù)據(jù)樣式(事件)的特征向量,是p-stable局部敏感哈希計算的輸入數(shù)據(jù),是LSHSIM建模算法的核心信息庫。8、數(shù)據(jù)樣式哈希庫(PatLSHLib—PatternLSHLibrary):基于p-stable局部敏感哈希技術(shù)計算數(shù)據(jù)樣式特征向量的哈希值,組成的哈希表稱為數(shù)據(jù)樣式哈希庫。9、相似鄰近樣式數(shù)據(jù)庫(ANNPatDB—ApproximateNearestNeighborsPatternDatabase):建模過程中,從數(shù)據(jù)樣式哈希庫中檢索到與數(shù)據(jù)事件哈希值相同的數(shù)據(jù)樣式組成的樣式數(shù)據(jù)庫。實(shí)施例1基于p-stable局部敏感哈希檢索數(shù)據(jù)樣式的多點(diǎn)地質(zhì)統(tǒng)計建模方法,即為沉積相類型變量的建模,具體步驟如下:(1)以圖4a為訓(xùn)練圖像TI,訓(xùn)練圖像展示了一個沉積相模型,其中包含兩種沉積微相,黑色的為河道微相、白色的是河道間灣微相,定義模擬實(shí)現(xiàn)R的尺寸與訓(xùn)練圖像尺寸一致,數(shù)據(jù)樣板T尺寸為15×15;(2)設(shè)置分塊網(wǎng)格BlockGrid尺寸為5×5,則訓(xùn)練圖像的特征向量維度等于25,輸入p-stable局部敏感哈希參數(shù),其中哈希桶寬w等于0.01,哈希表數(shù)量等于特征向量的維度25;(3)用數(shù)據(jù)樣板T掃描訓(xùn)練圖像TI,建立樣式數(shù)據(jù)庫PatDB;(4)統(tǒng)計樣式數(shù)據(jù)庫PatDB里所有數(shù)據(jù)樣式的分塊網(wǎng)格內(nèi)變量之和,取得訓(xùn)練圖像的特征向量,作為輸入變量參與p-stable局部敏感哈希計算,建立數(shù)據(jù)樣式哈希庫PatLSHLib;(5)根據(jù)模擬實(shí)現(xiàn)R創(chuàng)建隨機(jī)路徑;(6)如果隨機(jī)路徑里有未模擬的節(jié)點(diǎn)U,則進(jìn)入步驟7),否則進(jìn)入步驟11);(7)提取節(jié)點(diǎn)U處的數(shù)據(jù)事件DataEvent,采用步驟4)相同的參數(shù)統(tǒng)計數(shù)據(jù)事件的特征向量,得到數(shù)據(jù)事件的哈希值DevLSH;(8)從數(shù)據(jù)樣式哈希庫PatLSHLib檢索與DevLSH哈希桶號相同的所有數(shù)據(jù)樣式,組成目標(biāo)樣式數(shù)據(jù)庫ANNPatDB;(9)從ANNPatDB里查找與數(shù)據(jù)事件Dev相似度值最大的數(shù)據(jù)樣式Pat。(10)用數(shù)據(jù)樣式Pat整體覆蓋并凍結(jié)模擬實(shí)現(xiàn)R里節(jié)點(diǎn)U處的部分,返回步驟6);(11)模擬結(jié)束,輸出模擬實(shí)現(xiàn)R。圖4b是一個隨機(jī)模擬實(shí)現(xiàn)。實(shí)施例2本實(shí)施例為孔隙度類型變量的建模方法,該方法的操作步驟與實(shí)施例1基本相同,不同之處在于:輸入的訓(xùn)練圖像為圖5a,圖5b是孔隙度類型變量的一個隨機(jī)模擬實(shí)現(xiàn)。圖4和圖5分別展示了本發(fā)明方法在模擬相模型和物性模型的應(yīng)用。相模型屬于分類變量,圖4包含兩種相類型,圖4a是訓(xùn)練圖像——河流相模型,白色和黑色分別代表河道相和河道間灣,圖4b是一個隨機(jī)模擬實(shí)現(xiàn),觀察模擬實(shí)現(xiàn),河道的空間分布和連續(xù)性得到較好再現(xiàn)。圖5是模擬連續(xù)類型變量的示例,圖5a是圖4河流相模型對應(yīng)的孔隙度模型,圖5b是模擬實(shí)現(xiàn),模擬實(shí)現(xiàn)的孔隙度分布特征與訓(xùn)練圖像非常符合。從模擬時間和內(nèi)存(表2)占用兩個方面綜合分析了本發(fā)明相對于傳統(tǒng)方法的優(yōu)勢之處。圖4a為訓(xùn)練圖像,其維度為250×250,網(wǎng)格單元尺寸為10m×10m,數(shù)據(jù)樣板的維度設(shè)置為15×15,模擬實(shí)現(xiàn)的選用200×200和500×500兩個維度。參見表2的計算時間,本發(fā)明的計算時間遠(yuǎn)遠(yuǎn)低于SIMPAT和Filtersim等傳統(tǒng)多點(diǎn)地質(zhì)統(tǒng)計算法,相比后來改進(jìn)的DisPat和PSCSIM算法也具有較大的優(yōu)勢。在內(nèi)存占用方面,新方法占用內(nèi)存36MB,很好地控制哈希表對內(nèi)存的占用。綜合考慮耗時和內(nèi)存,本發(fā)明極大地提高了計算效率。表2LSHSIM與其他多點(diǎn)地質(zhì)統(tǒng)計算法計算耗時與內(nèi)存占用其它未詳細(xì)說明的部分均為現(xiàn)有技術(shù)。盡管上述實(shí)施例對本發(fā)明做出了詳盡的描述,但它僅僅是本發(fā)明一部分實(shí)施例,而不是全部實(shí)施例,人們還可以根據(jù)本實(shí)施例在不經(jīng)創(chuàng)造性前提下獲得其他實(shí)施例,這些實(shí)施例都屬于本發(fā)明保護(hù)范圍。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3