大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

可微神經(jīng)網(wǎng)絡(luò)模塊組裝

中文題目:可微神經(jīng)網(wǎng)絡(luò)模塊組裝

論文題目Differentiable Neural Network for Assembling Blocks

錄用期刊/會(huì)議The 27th European Conference on Artificial Intelligence ECAI 2024 (CCF-B類(lèi)會(huì)議)

原文DOI10.3233/FAIA240747

原文鏈接:https://doi.org/10.3233/FAIA240747

錄用/見(jiàn)刊時(shí)間:2024.10

作者列表

1)劉志偉 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 21

2  強(qiáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系副教授

3)趙藝博 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 23

4)趙艷紅 昆侖數(shù)智科技有限責(zé)任公司 北京

5)Jake Luo  University of Wisconsin Milwaukee  Department of Health Informatics and Administration  Associate Professor

摘要:

模塊組裝的目標(biāo)是針對(duì)不同數(shù)據(jù)集從預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型中選擇模塊,組合成一個(gè)新的神經(jīng)網(wǎng)絡(luò)。通過(guò)重用這些模塊的權(quán)重,使得訓(xùn)練變得高效。本文提出一種稱(chēng)為PA-DNN的端到端可微神經(jīng)網(wǎng)絡(luò)。PA-DNN由劃分神經(jīng)網(wǎng)絡(luò)模塊和組裝神經(jīng)網(wǎng)絡(luò)模塊組成。其中劃分神經(jīng)網(wǎng)絡(luò)模塊將根據(jù)新數(shù)據(jù)集把現(xiàn)有的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型劃分成模塊;組裝神經(jīng)網(wǎng)絡(luò)模塊選擇這些模塊中的一部分,并使用縫合層將它們組合成新的神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,與手工設(shè)計(jì)的網(wǎng)絡(luò)、神經(jīng)結(jié)構(gòu)搜索方法和神經(jīng)網(wǎng)絡(luò)組裝方法DeRy相比,PA-DNN能夠以更低的訓(xùn)練代價(jià)生成更精確、更輕量級(jí)的神經(jīng)網(wǎng)絡(luò)。 

背景與動(dòng)機(jī):

目前已經(jīng)積累了大量的神經(jīng)網(wǎng)絡(luò),如HuggingFace和MMPretrain中提供了大量在特定數(shù)據(jù)集上訓(xùn)練好的模型。雖然這些預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型在原始訓(xùn)練數(shù)據(jù)集上表現(xiàn)較好,但當(dāng)遇到新的數(shù)據(jù)集時(shí),它們的性能可能會(huì)下降,通常需要手動(dòng)調(diào)整模型結(jié)構(gòu)或重新訓(xùn)練以適配新的數(shù)據(jù)集,這會(huì)耗費(fèi)大量人力和計(jì)算資源。為緩解此問(wèn)題,本文提出PA-DNN模型最大化重用模型權(quán)重,可以有效減少訓(xùn)練成本。

設(shè)計(jì)與實(shí)現(xiàn):

劃分組裝可微神經(jīng)網(wǎng)絡(luò)(PA-DNN)總體框架如圖1所示。首先,從類(lèi)似于 Huggingface 的預(yù)訓(xùn)練模型庫(kù)中選擇一些模型作為模型庫(kù)?;谛聰?shù)據(jù)集,利用劃分神經(jīng)網(wǎng)絡(luò)模塊學(xué)習(xí)劃分點(diǎn)的概率分布,將預(yù)訓(xùn)練的模型拆分為模塊。在獲得劃分好的模型庫(kù)后,組裝神經(jīng)網(wǎng)絡(luò)模塊將通過(guò)路由模塊(如圖2a)來(lái)選擇其中的一些模塊,并使用縫合層(如圖2b)將模塊連接得到組裝模型。訓(xùn)練時(shí)利用驗(yàn)證數(shù)據(jù)集更新路由模塊的參數(shù),以指導(dǎo)結(jié)構(gòu)生成;利用訓(xùn)練數(shù)據(jù)集更新縫合層參數(shù),以適配目標(biāo)任務(wù)。然而,獲取組裝模型的精度需要多次的前向傳播和梯度下降迭代,非常耗時(shí)。為了克服這個(gè)問(wèn)題,使用評(píng)分函數(shù)預(yù)測(cè)組裝模型的精度,無(wú)需在評(píng)估期間重新訓(xùn)練組合出的神經(jīng)網(wǎng)絡(luò)。訓(xùn)練后,PA-DNN 會(huì)微調(diào)最佳模型的縫合層以適配新的數(shù)據(jù)集。PA-DNN以端到端的方式完成了網(wǎng)絡(luò)劃分與模塊組裝。

image.png 

圖1 劃分組裝可微神經(jīng)網(wǎng)絡(luò)模型(PA-DNN) 

image.png 

圖2 路由模塊和縫合層

實(shí)驗(yàn)結(jié)果及分析:

在CIFAR-10和CIFAR-100數(shù)據(jù)集上分別運(yùn)行PA-DNN四次得到的模型結(jié)構(gòu)圖,其中相同色塊表示來(lái)源于相同的預(yù)訓(xùn)練模型(如圖3所示)。

image.png 

圖3模型結(jié)構(gòu)圖

為驗(yàn)證所提出的評(píng)分函數(shù),在NAS-Bench-201數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。如圖4所示,性能評(píng)估得分和模型準(zhǔn)確率整體上呈線(xiàn)性正相關(guān)。

image.png 

圖4 評(píng)分函數(shù)與模型精度關(guān)系圖 

image.png 

圖5 驗(yàn)證準(zhǔn)確率對(duì)比結(jié)果

image.png 

圖6 準(zhǔn)確率和訓(xùn)練參數(shù)對(duì)比結(jié)果

結(jié)論:

本文提出了一種新的神經(jīng)網(wǎng)絡(luò)模塊組裝方法——?jiǎng)澐纸M裝可微神經(jīng)網(wǎng)絡(luò)(PA-DNN)。該方法使用端到端的可微分神經(jīng)網(wǎng)絡(luò)來(lái)從神經(jīng)網(wǎng)絡(luò)模型庫(kù)中組裝神經(jīng)網(wǎng)絡(luò)模塊。PA-DNN主要由兩個(gè)部分組成:劃分神經(jīng)網(wǎng)絡(luò)模塊和組裝神經(jīng)網(wǎng)絡(luò)模塊,分別負(fù)責(zé)模型劃分和網(wǎng)絡(luò)組裝。與手工設(shè)計(jì)的模型、神經(jīng)結(jié)構(gòu)搜索方法和DeRy方法相比,PA-DNN以較小的搜索成本組裝出新的網(wǎng)絡(luò),并以較小的訓(xùn)練成本就可以得到較好的模型表現(xiàn)。

通訊作者簡(jiǎn)介:

魯強(qiáng):副教授,博士生導(dǎo)師。目前主要從事演化計(jì)算和符號(hào)回歸、知識(shí)圖譜與智能問(wèn)答、以及軌跡分析與挖掘等方面的研究工作。

聯(lián)系方式:[email protected]