中文題目:一種基于神經(jīng)網(wǎng)絡(luò)層貢獻(xiàn)分析的高效微調(diào)方法
論文題目:Efficient Neural Network Fine-Tuning via Layer Contribution Analysis
錄用期刊/會(huì)議:The 2024 Twentieth International Conference on Intelligent Computing (CCF C)
原文鏈接:https://link.springer.com/chapter/10.1007/978-981-97-5591-2_30
作者列表:
1) 劉志卓 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 先進(jìn)科學(xué)與工程計(jì)算專(zhuān)業(yè) 博 22
2) 周南建 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩 23
3) 劉 民 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩 21
4) 劉志邦 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程專(zhuān)業(yè) 博 21
5) 徐朝農(nóng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師
文章簡(jiǎn)介:
隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各類(lèi)智能設(shè)備在智能家居、智慧城市和工業(yè)自動(dòng)化等領(lǐng)域得到了廣泛應(yīng)用。然而,隱私問(wèn)題隨著設(shè)備的普及而日益突出,促使在本地設(shè)備上進(jìn)行模型訓(xùn)練成為趨勢(shì)。由于物聯(lián)網(wǎng)設(shè)備計(jì)算資源有限,如何在這些受限條件下高效訓(xùn)練模型成為重大挑戰(zhàn)。物聯(lián)網(wǎng)場(chǎng)景中,單個(gè)設(shè)備產(chǎn)生的數(shù)據(jù)量通常較小,傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以獲得滿(mǎn)意的效果,因?yàn)樯疃葘W(xué)習(xí)模型通常需要大量標(biāo)注數(shù)據(jù),而本地設(shè)備上的小樣本數(shù)據(jù)集難以滿(mǎn)足這一需求。為此,少樣本學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,旨在利用少量樣本數(shù)據(jù)進(jìn)行有效模型訓(xùn)練。遷移學(xué)習(xí)作為少樣本學(xué)習(xí)的一種變體,通過(guò)預(yù)訓(xùn)練模型獲取先驗(yàn)知識(shí),再通過(guò)微調(diào)適應(yīng)特定任務(wù),從而在數(shù)據(jù)量較少的情況下仍能取得不錯(cuò)的推理精度。遷移學(xué)習(xí)中的特征重用是關(guān)鍵步驟,通過(guò)使用預(yù)訓(xùn)練模型中的特征提取器,從少樣本數(shù)據(jù)集中提取特征向量,提升分類(lèi)的精度。然而,簡(jiǎn)單利用少樣本數(shù)據(jù)集訓(xùn)練分類(lèi)器易導(dǎo)致過(guò)擬合。為解決這一問(wèn)題,少樣本分類(lèi)方法興起,利用度量學(xué)習(xí)或原型網(wǎng)絡(luò)技術(shù),通過(guò)建模樣本間的距離進(jìn)行分類(lèi),有效避免過(guò)擬合問(wèn)題。這些方法通過(guò)相似樣本聚類(lèi)、不相似樣本分離,分類(lèi)效果顯著,但其性能仍有提升空間,進(jìn)一步優(yōu)化少樣本分類(lèi)方法仍是一個(gè)重要的研究方向。
本文的主要內(nèi)容如下:
本文首先量化分析神經(jīng)網(wǎng)絡(luò)各層對(duì)模型推理性能的貢獻(xiàn),基于這些分析尋找最優(yōu)微調(diào)策略以最大限度提高精度,然后利用求解器求得最佳微調(diào)策略。通過(guò)多次迭代,能夠在保證推理精度的前提下,大幅減少微調(diào)所需的時(shí)間,從而使系統(tǒng)可以在資源受限的物聯(lián)網(wǎng)設(shè)備中應(yīng)用。與元學(xué)習(xí)相比,將微調(diào)所需的時(shí)間最多減少了36%。
由于隱私問(wèn)題的日益突出,在物聯(lián)網(wǎng)設(shè)備上部署深度神經(jīng)網(wǎng)絡(luò)逐漸成為一種趨勢(shì)。然而,物聯(lián)網(wǎng)設(shè)備有限的計(jì)算能力與神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的巨大計(jì)算資源之間存在矛盾。為提高訓(xùn)練效率,通常采用遷移學(xué)習(xí)方法。這種方法高度依賴(lài)微調(diào),盡管微調(diào)對(duì)于模型的準(zhǔn)確性至關(guān)重要,但也引入了額外的訓(xùn)練時(shí)間開(kāi)銷(xiāo)。為此,我們提出了一種高效的微調(diào)方法——基于神經(jīng)網(wǎng)絡(luò)層貢獻(xiàn)分析的高效微調(diào)方法,旨在滿(mǎn)足推理精度要求的同時(shí)加快微調(diào)速度。通過(guò)分析每一層對(duì)模型性能的貢獻(xiàn),構(gòu)建了一個(gè)優(yōu)化微調(diào)策略的問(wèn)題模型,以最大化準(zhǔn)確性。我們利用求解器識(shí)別出最佳微調(diào)方法。與元學(xué)習(xí)相比,在保持準(zhǔn)確性的同時(shí),將微調(diào)所需的時(shí)間最多減少了36%。
本文將每一層的推理準(zhǔn)確性表現(xiàn)作為性能的直接指標(biāo),相較于其他代理信號(hào),這更直接地反映了其對(duì)推理精度的重要程度。本文假設(shè)各層對(duì)推理精度的貢獻(xiàn)是可以疊加的。在此基礎(chǔ)上,我們引入了對(duì)各層分類(lèi)特性的分析,以確保最佳策略不會(huì)破壞模型低層的特征提取能力,從而保留特征重用的效果。因此,可以建模為:
![]()
![]()
在深度神經(jīng)網(wǎng)絡(luò)中,各層權(quán)重對(duì)遷移學(xué)習(xí)的影響存在顯著差異,這為模型訓(xùn)練策略提供了指導(dǎo)。本文旨在在保持推理精度的前提下盡可能的減少訓(xùn)練時(shí)間,因此提出了一種高效微調(diào)方法,優(yōu)先處理對(duì)模型性能至關(guān)重要的層次。通過(guò)量化分析每一層對(duì)準(zhǔn)確性的貢獻(xiàn),能夠有效確定微調(diào)策略。

如上圖,本文使用預(yù)訓(xùn)練的ResNet-18模型和CUB-200-2011數(shù)據(jù)集舉例說(shuō)明。首先,用少樣本分類(lèi)器替換模型的全連接層,并將此時(shí)的精度作為基準(zhǔn)。然后逐層微調(diào)卷積層的權(quán)重,并記錄每層權(quán)重對(duì)精度的增益。實(shí)驗(yàn)結(jié)果顯示,不同卷積層對(duì)準(zhǔn)確性的貢獻(xiàn)不一致,且深層卷積層并不一定貢獻(xiàn)更大;同時(shí),微調(diào)所需的時(shí)間隨著層的加深逐漸減少。這一現(xiàn)象與模型結(jié)構(gòu)有關(guān),因?yàn)橛?jì)算較低卷積層的梯度時(shí),即使不更新這些層的參數(shù),仍需涉及與其他相關(guān)層的梯度計(jì)算。此方法能夠在精度和微調(diào)時(shí)間之間取得平衡,進(jìn)而選擇出最佳的微調(diào)策略,以保證在達(dá)到最優(yōu)推理精度的同時(shí),微調(diào)時(shí)間消耗最小化。需要注意的是,預(yù)訓(xùn)練模型與少樣本學(xué)習(xí)數(shù)據(jù)集之間存在關(guān)聯(lián),準(zhǔn)確性會(huì)受到用于預(yù)訓(xùn)練的大規(guī)模數(shù)據(jù)集與小樣本數(shù)據(jù)集之間差異的影響。
本文在同時(shí)引入了對(duì)各層分類(lèi)特性的貢獻(xiàn)分析。在預(yù)訓(xùn)練模型中,隨著網(wǎng)絡(luò)逐步向前推進(jìn),從較低層次提取基本特征,在較深層逐漸將不同的特征向量分類(lèi),最終輸出圖像分類(lèi)結(jié)果。較低層的分類(lèi)特性不明顯,因?yàn)榇藭r(shí)提取的主要是基本幾何形狀(如邊緣和線(xiàn)條),這些特征在相對(duì)較低的層上可以重復(fù)利用。隨著網(wǎng)絡(luò)的加深,模型的分類(lèi)特性逐漸變得顯著,這表明要增強(qiáng)模型對(duì)特定任務(wù)的推理性能,微調(diào)應(yīng)主要集中在較深層次。分類(lèi)特性通過(guò)下式表示:

最后,本文將模型的全連接層替換為少樣本分類(lèi)器,此分類(lèi)器由小樣本數(shù)據(jù)集的支持?jǐn)?shù)據(jù)集計(jì)算得出。
本文針對(duì)三種模型進(jìn)行實(shí)驗(yàn),包括了ResNet-18、ResNet-50和SqueezeNet。首先對(duì)層貢獻(xiàn)進(jìn)行分析得出微調(diào)方案,下圖展示了各層對(duì)推理精度的貢獻(xiàn)及對(duì)應(yīng)消耗的時(shí)間。

本文與Meta-Learning方法和Prototypical Networks方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如下:

本文提出的高效微調(diào)方法在不同模型上都優(yōu)于Meta-Learning,并且有
的性能提升。
本文提出的神經(jīng)網(wǎng)絡(luò)高效微調(diào)方法,在保持推理精度的同時(shí)降低微調(diào)時(shí)間消耗。通過(guò)分析模型各層的貢獻(xiàn),將尋找最佳微調(diào)策略的問(wèn)題建模為優(yōu)化問(wèn)題,并利用求解器確定出高效的微調(diào)策略。與元學(xué)習(xí)相比成本降低了多達(dá)36%。這一方法加速了模型訓(xùn)練過(guò)程,使其在執(zhí)行特定任務(wù)時(shí)更加高效。
徐朝農(nóng),中國(guó)石油大學(xué)(北京)人工智能學(xué)院教師,主要研究領(lǐng)域?yàn)檫吘壷悄?、嵌入式系統(tǒng)、無(wú)線(xiàn)網(wǎng)絡(luò)。