中文題目:MKML: 用于零樣本常識(shí)問(wèn)答的多知識(shí)元學(xué)習(xí)算法
論文題目:MKML: Multi-Knowledge Meta-Learning Algorithm for Zero-shot Commonsense Question Answering
錄用期刊/會(huì)議: 計(jì)算機(jī)工程與應(yīng)用(CCF-T2類(lèi)期刊/北大核心/EI檢索)
錄用/見(jiàn)刊時(shí)間:2024年12月3日
作者列表:
1)楊浩杰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩22
2)魯 強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系副教授
摘要:
零樣本常識(shí)問(wèn)答要求模型能回答未見(jiàn)過(guò)的問(wèn)題。目前多數(shù)研究者都將知識(shí)圖譜作為常識(shí)知識(shí)進(jìn)行注入,但是當(dāng)知識(shí)圖譜與目標(biāo)數(shù)據(jù)集在領(lǐng)域上幾乎沒(méi)有重疊時(shí),不管是增加知識(shí)圖譜種類(lèi)還是增加圖譜內(nèi)的三元組數(shù)量,都難以有效提升模型在目標(biāo)數(shù)據(jù)集上的問(wèn)答能力。為解決這些不足,該文提出一種用于零樣本常識(shí)問(wèn)答的多知識(shí)元學(xué)習(xí)算法MKML。該方法通過(guò)訓(xùn)練不同的知識(shí)適配器(KG-Adapter)以分別將多個(gè)知識(shí)圖譜注入預(yù)訓(xùn)練模型,并通過(guò)構(gòu)建元混合專(zhuān)家模塊(Meta-MoE)融合這些適配器中的知識(shí)。同時(shí),為了增強(qiáng)模型根據(jù)自身知識(shí)回答未知目標(biāo)領(lǐng)域問(wèn)題的能力,MKML通過(guò)構(gòu)建多源元學(xué)習(xí)方法更新Meta-MoE參數(shù),以幫助模型獲取共享的知識(shí)結(jié)構(gòu)分布信息,并使其擁有根據(jù)問(wèn)題提示識(shí)別未知領(lǐng)域知識(shí)分布的能力,從而快速適應(yīng)目標(biāo)數(shù)據(jù)集。多個(gè)常識(shí)問(wèn)答數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的八個(gè)基線(xiàn)方法相比,MKML在零樣本常識(shí)問(wèn)答方面擁有更高的準(zhǔn)確率。
背景與動(dòng)機(jī):
零樣本常識(shí)問(wèn)答能幫助模型在無(wú)標(biāo)注數(shù)據(jù)情況下理解并回答新領(lǐng)域問(wèn)題,具有回答不同領(lǐng)域問(wèn)題的泛化能力?,F(xiàn)有的零樣本常識(shí)問(wèn)答方法主要是通過(guò)對(duì)已有的知識(shí)圖譜進(jìn)行數(shù)據(jù)擴(kuò)增,以增強(qiáng)問(wèn)答模型的泛化能力。但是當(dāng)目標(biāo)數(shù)據(jù)集和模型內(nèi)部知識(shí)的分布差異較大時(shí),在知識(shí)圖譜數(shù)目有限的情況下,依靠現(xiàn)有方法難以有效縮小這種分布差異,反而會(huì)使訓(xùn)練成本急劇增加。因此為進(jìn)一步減小上述分布差異,本文提出了一種用于零樣本常識(shí)問(wèn)答的多知識(shí)元學(xué)習(xí)算法MKML(Multi-Knowledge Meta-Learning)。
設(shè)計(jì)與實(shí)現(xiàn):
多知識(shí)元學(xué)習(xí)算法MKML的整體流程如圖1所示。該流程主要分為兩階段:(1)模塊預(yù)訓(xùn)練:將K個(gè)知識(shí)圖譜轉(zhuǎn)化為K個(gè)合成問(wèn)答數(shù)據(jù)集,再利用這K個(gè)合成問(wèn)答數(shù)據(jù)集對(duì)K個(gè)知識(shí)適配器(KG-Adapter)進(jìn)行預(yù)訓(xùn)練(如圖1 階段①所示);(2)多源元學(xué)習(xí):構(gòu)建多源元學(xué)習(xí)算法對(duì)元混合專(zhuān)家模塊(Meta-MoE)進(jìn)行訓(xùn)練(如圖1 階段②所示)。MKML的訓(xùn)練細(xì)節(jié)則如圖2所示。
圖1 MKML整體流程
圖2 MKML訓(xùn)練過(guò)程
實(shí)驗(yàn)結(jié)果及分析:
由知識(shí)圖譜轉(zhuǎn)化而來(lái)的合成問(wèn)答數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息如表1所示。
表1 合成問(wèn)答數(shù)據(jù)集統(tǒng)計(jì)

MKML與六個(gè)基于RoBERTa-Large的基線(xiàn)方法作了對(duì)比,在a-NLI、PIQA和WG上都取得了高于這些基線(xiàn)方法的效果(表2)。MKML與大模型相比依舊有突出優(yōu)勢(shì)(表3),但是與監(jiān)督學(xué)習(xí)的方法相比則有比較明顯的劣勢(shì)(表4)。
表2 與基于RoBERTa-Large的基線(xiàn)方法的對(duì)比實(shí)驗(yàn)結(jié)果
表3 與基于大模型的基線(xiàn)方法的對(duì)比實(shí)驗(yàn)結(jié)果
表4 與監(jiān)督學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)結(jié)果
我們對(duì)MKML進(jìn)行了相關(guān)的消融實(shí)驗(yàn),結(jié)果如圖3所示。可以發(fā)現(xiàn),MoE-Gate對(duì)整體的影響最大。

圖3 消融實(shí)驗(yàn)結(jié)果
為了探究不同知識(shí)圖譜組合對(duì)模型零樣本推理能力的影響,本文做了進(jìn)一步的消融實(shí)驗(yàn)。三源知識(shí)元學(xué)習(xí)(表5)和二源知識(shí)元學(xué)習(xí)(表6)的實(shí)驗(yàn)結(jié)果表明,隨著可用知識(shí)圖譜數(shù)量的減少,模型的平均準(zhǔn)確率也會(huì)下降。本文還將MKML分別在三個(gè)和兩個(gè)知識(shí)圖譜上做元學(xué)習(xí)消融(圖4,其中正值表示元學(xué)習(xí)消融后準(zhǔn)確率提升,負(fù)值則表示元學(xué)習(xí)消融后準(zhǔn)確率降低)。
表5 三源知識(shí)元學(xué)習(xí)實(shí)驗(yàn)結(jié)果
表6 二源知識(shí)元學(xué)習(xí)實(shí)驗(yàn)結(jié)果

圖4 元學(xué)習(xí)消融前后準(zhǔn)確率變化(知識(shí)源數(shù)量減少)
然后我們對(duì)MKML進(jìn)行了調(diào)參分析,對(duì)KG-Adapter瓶頸維度、Meta-MoE瓶頸維度、多專(zhuān)家模塊混合層層數(shù)對(duì)模型的準(zhǔn)確率影響進(jìn)行了實(shí)驗(yàn)對(duì)比,分別如表7、表8和圖5所示。
表7 KG-Adapter瓶頸維度對(duì)準(zhǔn)確率的影響
表8 Meta-MoE瓶頸維度對(duì)準(zhǔn)確率的影響

圖5 多專(zhuān)家模塊混合層層數(shù)對(duì)模型準(zhǔn)確率的影響
進(jìn)一步地,為探究模型的時(shí)間復(fù)雜度受哪些因素影響,我們對(duì)模型輸入長(zhǎng)度、模型層數(shù)、KG-Adapter數(shù)目以及Meta-MoE本身對(duì)模型的推理時(shí)間影響進(jìn)行了實(shí)驗(yàn)分析,結(jié)果如圖6和圖7所示。可以看出,這些因素都起著正向作用。我們還將MKML的推理時(shí)間與相關(guān)基線(xiàn)模型作了比較(表9)。

圖6 輸入長(zhǎng)度與模型層數(shù)對(duì)推理時(shí)間的影響

圖7 KG-Adapter數(shù)目及Meta-MoE本身對(duì)模型推理時(shí)間的影響
表9與基于RoBERTa-Large的基線(xiàn)方法的推理時(shí)間對(duì)比
表10則是相關(guān)數(shù)據(jù)集的樣例分析。
表10 a-NLI、PIQA、WG的樣例分析
結(jié)論:
本文提出了一種用于零樣本常識(shí)問(wèn)答的多知識(shí)元學(xué)習(xí)算法MKML。MKML在預(yù)訓(xùn)練模型基礎(chǔ)上添加了多專(zhuān)家模塊混合層。該層包括對(duì)應(yīng)于不同知識(shí)圖譜的多個(gè)知識(shí)適配器(KG-Adapter),以及元混合專(zhuān)家模塊(Meta-MoE)。MKML的整個(gè)訓(xùn)練過(guò)程分為模塊預(yù)訓(xùn)練和多源元學(xué)習(xí)兩個(gè)階段,使模型在學(xué)習(xí)了足夠常識(shí)知識(shí)的同時(shí),具備快速識(shí)別未知目標(biāo)數(shù)據(jù)集知識(shí)分布的能力。本文在三個(gè)常識(shí)問(wèn)答數(shù)據(jù)集和四個(gè)知識(shí)圖譜(ConceptNet、Wikidata、WordNet和ATOMIC)上進(jìn)行了廣泛的實(shí)驗(yàn),證明了MKML通過(guò)集成多知識(shí)圖譜能顯著提升問(wèn)答模型的零樣本能力。
通訊作者簡(jiǎn)介:
魯強(qiáng):副教授,博士生導(dǎo)師。目前主要從事演化計(jì)算和符號(hào)回歸、知識(shí)圖譜與智能問(wèn)答、以及軌跡分析與挖掘等方面的研究工作。
聯(lián)系方式:[email protected]