大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

SEGAL時(shí)間序列分類(lèi)?-?基于生成模型與自適應(yīng)加權(quán)的穩(wěn)定LIME解釋方法

中文題目:SEGAL時(shí)間序列分類(lèi) - 基于生成模型與自適應(yīng)加權(quán)的穩(wěn)定LIME解釋方法

論文題目:SEGAL time series classification — Stable explanations using a generative model and an adaptive weighting method for LIME

錄用期刊/會(huì)議:Neural Networks(中科院大類(lèi)1區(qū) TOP

原文DOI10.1016/j.neunet.2024.106345

原文鏈接:https://www.sciencedirect.com/science/article/pii/S0893608024002697?via%3Dihub

錄用/見(jiàn)刊時(shí)間:May 10 2024

作者列表

1)孟   翰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系教師

2)Christian Wagner 英國(guó)諾丁漢大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 教授

3)Isaac Triguero 英國(guó)諾丁漢大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 副教授


文章簡(jiǎn)介:

在復(fù)雜系統(tǒng)的多變量時(shí)間序列分類(lèi)任務(wù)中,深度學(xué)習(xí)模型展現(xiàn)了強(qiáng)大的性能,但其“黑箱”特性限制了模型在關(guān)鍵領(lǐng)域中的應(yīng)用。LIME(Local Interpretability Model-agnostic Explanation)是一個(gè)強(qiáng)大的解釋黑箱模型解釋器,但是其在解釋時(shí)間序列問(wèn)題時(shí)經(jīng)常產(chǎn)生不穩(wěn)定的解釋。為解決這一問(wèn)題,本研究提出了一種基于生成模型的LIME解釋框架,利用生成式模型生成分布內(nèi)的鄰居樣本,并引入自適應(yīng)加權(quán)方法以提高解釋的穩(wěn)定性。通過(guò)在對(duì)多個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明本方法顯著提升了解釋的穩(wěn)定性。

摘要:

LIME是一種廣泛使用的事后解釋方法,用于解釋黑盒模型。但是最近的研究表明LIME提供的解釋面臨不穩(wěn)定的挑戰(zhàn),提供的解釋不可重復(fù),這讓人對(duì)其可靠性產(chǎn)生懷疑。本文研究了 LIME 在應(yīng)用于多變量時(shí)間序列分類(lèi)問(wèn)題時(shí)的穩(wěn)定性。研究表明,LIME 中使用的傳統(tǒng)鄰居生成方法存在創(chuàng)建“假”鄰居的風(fēng)險(xiǎn),這些鄰居與訓(xùn)練模型不符,并且遠(yuǎn)離要解釋的輸入。由于時(shí)間序列數(shù)據(jù)具有很大的時(shí)間依賴(lài)性,這種風(fēng)險(xiǎn)尤其明顯。我們討論了這些不符分布的鄰居如何導(dǎo)致不穩(wěn)定的解釋。此外,LIME 根據(jù)用戶(hù)定義的超參數(shù)對(duì)鄰居進(jìn)行加權(quán),這些超參數(shù)依賴(lài)于問(wèn)題并且難以調(diào)整。我們展示了不合適的超參數(shù)如何影響解釋的穩(wěn)定性。我們提出了一種雙重方法來(lái)解決這些問(wèn)題。首先,使用生成模型來(lái)近似訓(xùn)練數(shù)據(jù)集的分布,從中可以為 LIME 創(chuàng)建分布內(nèi)樣本,從而創(chuàng)建有意義的鄰居。其次,設(shè)計(jì)了一種自適應(yīng)加權(quán)方法,其中的超參數(shù)比傳統(tǒng)方法更容易調(diào)整。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)證明了該方法的有效性,它能夠使 LIME 框架提供更穩(wěn)定的解釋。此外,本文還深入討論了這些結(jié)果背后的原因。

背景與動(dòng)機(jī):

多變量時(shí)間序列分類(lèi)(MTSC)在網(wǎng)絡(luò)安全異常檢測(cè)和醫(yī)療健康監(jiān)控等領(lǐng)域有廣泛應(yīng)用。近年來(lái),深度學(xué)習(xí)在MTSC任務(wù)中表現(xiàn)出色,廣泛應(yīng)用于各種場(chǎng)景。然而,深度學(xué)習(xí)模型作為黑箱模型,缺乏足夠的可解釋性,嚴(yán)重限制了其在需要可靠解釋的關(guān)鍵領(lǐng)域中的應(yīng)用。

為了應(yīng)對(duì)這一挑戰(zhàn),諸如LIME等方法被廣泛用于解釋復(fù)雜的深度學(xué)習(xí)模型。然而,LIME方法在多次運(yùn)行中可能產(chǎn)生不穩(wěn)定的解釋。穩(wěn)定性對(duì)于解釋方法至關(guān)重要,因?yàn)椴环€(wěn)定的解釋會(huì)使模型用戶(hù)對(duì)其可靠性產(chǎn)生懷疑。雖然已有研究嘗試通過(guò)增加樣本數(shù)量、改進(jìn)采樣方法或優(yōu)化超參數(shù)來(lái)提升LIME的穩(wěn)定性,但這些方法忽略了生成樣本時(shí)未考慮訓(xùn)練數(shù)據(jù)的分布,從而可能生成超出分布的樣本,從而導(dǎo)致了解釋結(jié)果不穩(wěn)定的問(wèn)題。

為了解決上述問(wèn)題,本文提出了一種基于生成式模型的LIME解釋框架,利用Transformer生成符合訓(xùn)練數(shù)據(jù)分布的樣本,并引入自適應(yīng)加權(quán)方法,以?xún)?yōu)化解釋的穩(wěn)定性。與現(xiàn)有工作相比,該方法在生成高質(zhì)量樣本和提升解釋穩(wěn)定性方面取得了顯著進(jìn)展。本文的動(dòng)機(jī)在于通過(guò)解決生成超出分布樣本的問(wèn)題,提升LIME在多變量時(shí)間序列數(shù)據(jù)上的應(yīng)用效果,進(jìn)而提高機(jī)器學(xué)習(xí)模型的可解釋性。

設(shè)計(jì)與實(shí)現(xiàn):

本文提出了一種名為 SEGAL(基于生成模型和自適應(yīng)加權(quán)的LIME穩(wěn)定解釋方法)解釋方法,旨在提高LIME在解釋MTS)任務(wù)中的穩(wěn)定性。SEGAL主要解決兩個(gè)關(guān)鍵問(wèn)題:(1) 生成遵循訓(xùn)練數(shù)據(jù)分布的鄰居樣本,使其更加真實(shí)和有意義;(2) 優(yōu)化LIME框架中的超參數(shù),降低超參數(shù)優(yōu)化的復(fù)雜度。

為了解決第一個(gè)問(wèn)題,SEGAL引入了一種基于Transformer架構(gòu)的生成模型,用于生成符合訓(xùn)練數(shù)據(jù)分布的鄰居樣本。這些樣本真實(shí)地反映了模型的學(xué)習(xí)內(nèi)容,從而為解釋提供了有意義的鄰居樣本。

圖1 基于Transformer的鄰居樣本生成方法

針對(duì)第二個(gè)問(wèn)題,SEGAL提出了一種自適應(yīng)加權(quán)方法,根據(jù)鄰居樣本與目標(biāo)樣本的距離動(dòng)態(tài)調(diào)整加權(quán)方式,從而提升解釋過(guò)程的可靠性。

圖2 自適應(yīng)加權(quán)方法

SEGAL的工作流程如下:

1. 使用訓(xùn)練數(shù)據(jù)訓(xùn)練分類(lèi)器和生成模型。

2. 利用生成模型為目標(biāo)輸入生成鄰居樣本。

3. 使用訓(xùn)練好的分類(lèi)器對(duì)生成的鄰居樣本進(jìn)行預(yù)測(cè)。

4. 采用自適應(yīng)加權(quán)方法,根據(jù)鄰居與目標(biāo)樣本的距離對(duì)樣本進(jìn)行加權(quán)。

5. 在加權(quán)后的數(shù)據(jù)上擬合可解釋模型,生成最終的解釋結(jié)果。

方法實(shí)現(xiàn)

1. 使用生成模型和局部采樣生成鄰居

LIME的解釋核心是通過(guò)分析模型對(duì)鄰居樣本的響應(yīng)來(lái)解釋其對(duì)目標(biāo)輸入的行為。為了確保生成的鄰居樣本既真實(shí)又接近目標(biāo)輸入,SEGAL采用了一種基于Transformer的生成模型,結(jié)合“分布內(nèi)采樣”和“局部采樣結(jié)合”,確保鄰居樣本來(lái)自與訓(xùn)練數(shù)據(jù)相同的分布。

2. 自適應(yīng)加權(quán)方法

LIME中,控制鄰居樣本加權(quán)的超參數(shù)對(duì)解釋的穩(wěn)定性至關(guān)重要。傳統(tǒng)LIME采用固定的加權(quán)策略,可能導(dǎo)致解釋結(jié)果不一致。SEGAL提出了一種自適應(yīng)加權(quán)方法,根據(jù)鄰居與目標(biāo)樣本的距離動(dòng)態(tài)調(diào)整加權(quán),通過(guò)引入了一個(gè)標(biāo)量參數(shù),決定解釋過(guò)程中考慮的鄰居樣本范圍。并且在給定的搜索區(qū)間內(nèi)優(yōu)化該參數(shù),確保只有最相關(guān)的鄰居參與解釋?zhuān)瑥亩M(jìn)一步提升解釋的穩(wěn)定性。

實(shí)驗(yàn)結(jié)果及分析:

在本實(shí)驗(yàn)中,針對(duì)提出的SEGAL方法進(jìn)行了多角度的實(shí)驗(yàn)設(shè)計(jì)和分析。在“鄰居生成“方面,實(shí)驗(yàn)結(jié)果顯示,傳統(tǒng)方法生成的鄰居樣本與目標(biāo)樣本之間的距離較大,難以為解釋過(guò)程提供有效的鄰近樣本。而生成模型結(jié)合局部采樣策略的方法顯著改善了這一問(wèn)題,生成的鄰居樣本更接近目標(biāo)樣本,確保了解釋的局部性和有效性。

圖3 提出的鄰居生成方法產(chǎn)生了更接近于目標(biāo)樣本的數(shù)據(jù)

通過(guò)與基準(zhǔn)方法的比較表明,SEGAL在穩(wěn)定性評(píng)估中表現(xiàn)突出,其解釋結(jié)果在多個(gè)數(shù)據(jù)集中表現(xiàn)優(yōu)異。在Jaccard相似性指數(shù)的評(píng)估中,SEGAL在大部分?jǐn)?shù)據(jù)集上都取得了較高的分?jǐn)?shù),證明了其在生成穩(wěn)定解釋方面的能力。

結(jié)論:

在本文中,我們針對(duì)LIME在多變量時(shí)間序列分類(lèi)問(wèn)題中的穩(wěn)定性進(jìn)行了深入研究,特別是傳統(tǒng)鄰居生成方法引發(fā)的分布外問(wèn)題(The Out-Of-Distribution Problem)對(duì)解釋結(jié)果的影響。為了緩解這一問(wèn)題,我們提出在LIME的鄰居生成過(guò)程中引入生成模型,以生成分布內(nèi)的樣本。實(shí)驗(yàn)結(jié)果表明,采用該生成模型后,LIME提供的解釋變得更加穩(wěn)定。同時(shí),我們提出的自適應(yīng)加權(quán)方法進(jìn)一步提高了解釋過(guò)程的計(jì)算效率。

分布外問(wèn)題是可解釋人工智能領(lǐng)域中公認(rèn)的重要問(wèn)題,對(duì)最終的解釋性能有著顯著影響。本研究首次系統(tǒng)地探討了該問(wèn)題對(duì)LIME解釋穩(wěn)定性的影響。由于在解釋過(guò)程中通常需要生成樣本,這不僅適用于LIME,還應(yīng)引起其他類(lèi)似解釋方法的重視。我們希望本研究的發(fā)現(xiàn)能夠?yàn)槲磥?lái)的研究提供啟發(fā),繼續(xù)解決這一關(guān)鍵問(wèn)題。

作者簡(jiǎn)介:

孟翰,中國(guó)石油大學(xué)(北京)人工智能學(xué)院特任崗位副教授。本科和碩士畢業(yè)于中國(guó)石油大學(xué)(北京),分別獲得石油工程和油氣井工程學(xué)位,隨后在英國(guó)諾丁漢大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位。于2024年加入中國(guó)石油大學(xué)(北京)人工智能學(xué)院。研究方向包括可解釋人工智能、生成式模型、時(shí)間序列分析等。專(zhuān)注于將前沿AI技術(shù)應(yīng)用于石油行業(yè)的挑戰(zhàn)性問(wèn)題。