中文題目:基于條件去噪擴(kuò)散概率模型的缺失測(cè)井曲線(xiàn)填補(bǔ)方法
論文題目:A Missing Well-Logs Imputation Method Based on Conditional Denoising Diffusion Probabilistic Models
錄用期刊/會(huì)議:SPE Journal (中科院大類(lèi)3區(qū),JCR Q1)
原文DOI:https://doi.org/10.2118/219452-PA
原文鏈接:
https://onepetro.org/SJ/article-abstract/29/05/2165/540807/A-Missing-Well-Logs-Imputation-Method-Based-on
錄用/見(jiàn)刊時(shí)間:February 05 2024
作者列表:
1)孟 翰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系教師
2)林伯韜 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系教師
3)張儒鑫 美國(guó)德州農(nóng)工大學(xué)
4)金 衍(通訊作者) 中國(guó)石油大學(xué)(北京)石油工程學(xué)院 油氣井工程系教師
文章簡(jiǎn)介:
測(cè)井曲線(xiàn)是石油工程中重要的地質(zhì)數(shù)據(jù),但常常由于噪聲和數(shù)據(jù)缺失影響其應(yīng)用效果。本文提出了一種基于擴(kuò)散模型的測(cè)井曲線(xiàn)數(shù)據(jù)插補(bǔ)方法,通過(guò)生成式模型學(xué)習(xí)數(shù)據(jù)分布,能在大幅度數(shù)據(jù)缺失的情況下提供更準(zhǔn)確的插補(bǔ)結(jié)果和不確定性估計(jì),實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的優(yōu)越性。
摘要:
測(cè)井曲線(xiàn)是記錄地層地質(zhì)屬性的關(guān)鍵數(shù)據(jù),但其數(shù)據(jù)常含噪聲和缺失,影響實(shí)際應(yīng)用效果。傳統(tǒng)插補(bǔ)方法雖有效,但難以表達(dá)數(shù)據(jù)中的不確定性,且在缺失嚴(yán)重的數(shù)據(jù)集上表現(xiàn)不佳。為解決此問(wèn)題,本文提出基于條件去噪擴(kuò)散概率模型(CDDPM)的生成模型用于插補(bǔ)缺失數(shù)據(jù)。CDDPM具備捕捉數(shù)據(jù)不確定性的能力,能提供概率分布預(yù)測(cè),有助于做出穩(wěn)健的決策。其生成特性無(wú)需特定輸入輸出映射,能夠同時(shí)處理多變量數(shù)據(jù)的插補(bǔ)問(wèn)題。實(shí)驗(yàn)結(jié)果表明,CDDPM在定性與定量評(píng)估中均優(yōu)于傳統(tǒng)方法,展示了現(xiàn)代深度生成模型在石油工程中的應(yīng)用潛力。
背景與動(dòng)機(jī):
測(cè)井曲線(xiàn)是鉆井過(guò)程中記錄不同深度地層屬性的關(guān)鍵數(shù)據(jù),廣泛應(yīng)用于巖相識(shí)別、儲(chǔ)層評(píng)價(jià)、孔隙度和滲透率預(yù)測(cè)等。然而,復(fù)雜的地層條件和設(shè)備故障常導(dǎo)致測(cè)井曲線(xiàn)數(shù)據(jù)存在噪聲和缺失,影響其實(shí)際應(yīng)用。因此,開(kāi)發(fā)有效的插補(bǔ)方法至關(guān)重要。
傳統(tǒng)插補(bǔ)方法包括基于物理模型的確定性方法和統(tǒng)計(jì)概率方法。確定性方法依賴(lài)巖性和流體假設(shè),適用性受限;統(tǒng)計(jì)方法通過(guò)估算數(shù)據(jù)特征插補(bǔ),雖然簡(jiǎn)單,但精度較低。隨著計(jì)算機(jī)科學(xué)的發(fā)展,機(jī)器學(xué)習(xí)模型開(kāi)始應(yīng)用于地球科學(xué)領(lǐng)域,能夠自動(dòng)識(shí)別數(shù)據(jù)中的隱藏關(guān)系,但在處理多樣性缺失數(shù)據(jù)時(shí)仍有局限。
近年來(lái),生成式模型如變分自編碼器(VAE)、生成對(duì)抗網(wǎng)絡(luò)(GAN)和擴(kuò)散模型(DDPM)為數(shù)據(jù)插補(bǔ)提供了新思路。但VAE可能生成低質(zhì)量數(shù)據(jù),GAN訓(xùn)練不穩(wěn)定。而DDPM在捕捉復(fù)雜多尺度結(jié)構(gòu)方面表現(xiàn)優(yōu)異,通過(guò)一系列反向擴(kuò)散步驟將噪聲逐漸轉(zhuǎn)換為目標(biāo)數(shù)據(jù),適用于測(cè)井曲線(xiàn)插補(bǔ)任務(wù)。本研究提出了一種基于DDPM的生成模型,專(zhuān)門(mén)用于解決測(cè)井曲線(xiàn)數(shù)據(jù)缺失問(wèn)題。該模型不僅能提供高質(zhì)量的插補(bǔ)結(jié)果,還能估計(jì)結(jié)果中的不確定性,增強(qiáng)了石油工程決策的穩(wěn)健性。實(shí)驗(yàn)表明,該方法在數(shù)據(jù)插補(bǔ)的質(zhì)量和可靠性方面具有顯著優(yōu)勢(shì)。
設(shè)計(jì)與實(shí)現(xiàn):
本文提出了一種基于條件去噪擴(kuò)散概率模型(CDDPM)的生成式模型,用于解決測(cè)井?dāng)?shù)據(jù)缺失插補(bǔ)問(wèn)題。該模型通過(guò)學(xué)習(xí)測(cè)井?dāng)?shù)據(jù)的底層分布,能夠在數(shù)據(jù)缺失的情況下進(jìn)行高質(zhì)量的插補(bǔ),并同時(shí)提供不確定性估計(jì)。
方法設(shè)計(jì)
1. 模型架構(gòu):CDDPM是基于去噪擴(kuò)散概率模型(DDPM)的擴(kuò)展,專(zhuān)門(mén)針對(duì)測(cè)井?dāng)?shù)據(jù)的特性進(jìn)行設(shè)計(jì)。DDPM的核心思想是通過(guò)逐步將噪聲加入數(shù)據(jù)中,訓(xùn)練模型學(xué)習(xí)去噪過(guò)程,最終能夠從隨機(jī)噪聲中恢復(fù)出接近原始數(shù)據(jù)分布的樣本。CDDPM在此基礎(chǔ)上引入條件信息(如部分已知的測(cè)井?dāng)?shù)據(jù)),通過(guò)條件生成的方式提高插補(bǔ)精度。
2. 輸入與輸出:模型的輸入包括已知的測(cè)井?dāng)?shù)據(jù)和缺失數(shù)據(jù)的掩碼(mask)。已知數(shù)據(jù)用于為模型提供條件信息,而掩碼用于標(biāo)識(shí)哪些數(shù)據(jù)是缺失的。模型的輸出是對(duì)缺失數(shù)據(jù)的插補(bǔ)結(jié)果。
3. 噪聲擴(kuò)散過(guò)程:CDDPM采用一個(gè)前向擴(kuò)散過(guò)程,將原始數(shù)據(jù)逐漸加上噪聲,生成一系列噪聲狀態(tài)。該過(guò)程通過(guò)一個(gè)馬爾可夫鏈來(lái)實(shí)現(xiàn),每一步都會(huì)向數(shù)據(jù)添加少量的高斯噪聲,最終將數(shù)據(jù)轉(zhuǎn)換為純?cè)肼暦植肌?/span>
4. 去噪反演過(guò)程:反向去噪過(guò)程是CDDPM的核心,它通過(guò)學(xué)習(xí)逐步移除噪聲的過(guò)程,最終恢復(fù)出完整的數(shù)據(jù)分布。為了有效地進(jìn)行去噪,模型利用條件信息指導(dǎo)去噪路徑,使得插補(bǔ)的結(jié)果與已知數(shù)據(jù)一致。

圖1 擴(kuò)散模型的前向擴(kuò)散與反向降噪過(guò)程
實(shí)現(xiàn)細(xì)節(jié)
1. 網(wǎng)絡(luò)架構(gòu):CDDPM的去噪模型采用殘差網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合自注意力機(jī)制,以更好地捕捉測(cè)井?dāng)?shù)據(jù)中的復(fù)雜時(shí)空關(guān)系。殘差網(wǎng)絡(luò)有助于信息的有效傳遞和特征的深層學(xué)習(xí),而自注意力機(jī)制則可以增強(qiáng)模型在長(zhǎng)程依賴(lài)關(guān)系處理上的能力。

圖2 基于殘差網(wǎng)絡(luò)和注意力機(jī)制的降噪模型
2. 條件編碼:在去噪過(guò)程中,模型通過(guò)條件編碼器將已知測(cè)井?dāng)?shù)據(jù)編碼為條件向量,這些條件向量在去噪步驟中被反復(fù)使用,以確保生成的插補(bǔ)數(shù)據(jù)符合已知信息的約束。
3. 損失函數(shù):模型的訓(xùn)練目標(biāo)是最小化去噪預(yù)測(cè)值與真實(shí)噪聲之間的均方誤差,這使得模型能夠準(zhǔn)確地預(yù)測(cè)每一步去噪過(guò)程中的噪聲,并最終重建缺失數(shù)據(jù)。
4. 數(shù)據(jù)處理與訓(xùn)練:為了訓(xùn)練CDDPM,原始測(cè)井?dāng)?shù)據(jù)被分割成固定長(zhǎng)度的滑動(dòng)窗口,每個(gè)窗口內(nèi)的數(shù)據(jù)被分別處理。訓(xùn)練數(shù)據(jù)集通過(guò)隨機(jī)掩蓋一部分已知數(shù)據(jù)來(lái)模擬缺失情況,模型通過(guò)這些模擬數(shù)據(jù)學(xué)習(xí)如何進(jìn)行缺失數(shù)據(jù)的插補(bǔ)。整個(gè)訓(xùn)練過(guò)程采用自監(jiān)督學(xué)習(xí)的方法,逐步優(yōu)化去噪網(wǎng)絡(luò)的參數(shù)。
5. 不確定性估計(jì):由于CDDPM是一個(gè)概率模型,它不僅能生成插補(bǔ)值,還能為每個(gè)插補(bǔ)提供不確定性估計(jì)。這通過(guò)生成多個(gè)樣本并計(jì)算它們的分布來(lái)實(shí)現(xiàn),能夠?yàn)楹罄m(xù)的決策提供更豐富的信息支持。

圖3 帶有不確定性估計(jì)的插補(bǔ)結(jié)果
實(shí)驗(yàn)結(jié)果及分析:
研究結(jié)果明確表明,所提出的CDDPM在測(cè)井?dāng)?shù)據(jù)插補(bǔ)任務(wù)中明顯優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。這一模型的核心在于其從概率角度進(jìn)行數(shù)據(jù)插補(bǔ),通過(guò)學(xué)習(xí)測(cè)井?dāng)?shù)據(jù)的分布,它能夠捕捉數(shù)據(jù)中固有的不確定性,并提供概率預(yù)測(cè),而不僅僅是點(diǎn)估計(jì)。這種概率性特質(zhì)在石油工程領(lǐng)域尤為重要,因?yàn)閮?chǔ)層的復(fù)雜性質(zhì)和操作條件通常會(huì)導(dǎo)致數(shù)據(jù)中充滿(mǎn)了顯著的噪聲。傳統(tǒng)的點(diǎn)估計(jì)方法難以有效涵蓋這些噪聲內(nèi)容,而概率預(yù)測(cè)可以提供關(guān)于這些不確定性的更全面視角,從而得出更穩(wěn)健和可靠的預(yù)測(cè)結(jié)果。例如,在巖相識(shí)別任務(wù)中,概率預(yù)測(cè)顯著改善了我們的決策過(guò)程,它們提供了一種評(píng)估不同結(jié)果可能性的方法,有助于避免潛在風(fēng)險(xiǎn),使預(yù)測(cè)比確定性預(yù)測(cè)更為可靠。

圖4 基于不確定插補(bǔ)結(jié)果的巖石識(shí)別
結(jié)論:
本文提出了基于擴(kuò)散模型(CDDPM)的測(cè)井數(shù)據(jù)的插補(bǔ)方法,其能夠有效捕捉數(shù)據(jù)的分布,提供基于不確定性的更穩(wěn)健的插補(bǔ)結(jié)果,相比傳統(tǒng)方法展現(xiàn)了明顯優(yōu)勢(shì)。通過(guò)實(shí)際測(cè)井?dāng)?shù)據(jù)的實(shí)驗(yàn),CDDPM在精度上優(yōu)于現(xiàn)有的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,定性和定量分析均驗(yàn)證了其在數(shù)據(jù)重建中的高效性。本研究展示了深度生成式模型在石油領(lǐng)域的應(yīng)用潛力,未來(lái)可進(jìn)一步探索先進(jìn)AI技術(shù)在儲(chǔ)層建模、鉆井優(yōu)化和生產(chǎn)預(yù)測(cè)等領(lǐng)域中的創(chuàng)新應(yīng)用。
作者簡(jiǎn)介:
孟翰,中國(guó)石油大學(xué)(北京)人工智能學(xué)院特任崗位副教授。本科和碩士畢業(yè)于中國(guó)石油大學(xué)(北京),分別獲得石油工程和油氣井工程學(xué)位,隨后在英國(guó)諾丁漢大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。于2024年加入中國(guó)石油大學(xué)(北京)人工智能學(xué)院。研究方向包括可解釋人工智能、生成式模型、時(shí)間序列分析等。專(zhuān)注于將前沿AI技術(shù)應(yīng)用于石油行業(yè)的挑戰(zhàn)性問(wèn)題。
通訊作者簡(jiǎn)介:
金衍,石油工程學(xué)院教授,博士生導(dǎo)師,長(zhǎng)期致力于巖石力學(xué)、智能油田、井壁穩(wěn)定和水力壓裂等油氣井工程領(lǐng)域方面的教學(xué)和科研工作,國(guó)家杰出青年科學(xué)基金獲得者。