中文題目:基于深度特征和類(lèi)別置信度一致性的長(zhǎng)尾聲吶圖像識(shí)別方法
論文題目:Deep Feature and Category Confidence Consistency Learning for Long-tailed Sonar Image Recognition
錄用期刊:Knowledge-Based Systems(中科院大類(lèi)一區(qū)、TOP期刊)
錄用時(shí)間:2025.4.27
作者列表:
1)韓佳藝 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 博22級(jí)
2)劉建偉 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師
3)吳芃麒 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 碩22級(jí)
4)劉芷含 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 碩23級(jí)
摘要:
本文提出一種基于深度特征和類(lèi)別置信度一致性的長(zhǎng)尾聲吶圖像識(shí)別方法。該方法在雙分支解耦學(xué)習(xí)框架內(nèi)集成了變尺度空間混合和全局特征混合增強(qiáng)策略,并提出了深度特征和類(lèi)別置信度一致性正則化損失函數(shù),以確保不同混合增強(qiáng)之間的一致性,從而有效提高模型對(duì)多層級(jí)特征表示的判別能力,而且提高了宏觀(guān)預(yù)測(cè)趨勢(shì)的平衡性。
背景與動(dòng)機(jī):
現(xiàn)實(shí)世界的聲納圖像通常表現(xiàn)為長(zhǎng)尾分布,其中大多數(shù)樣本屬于幾個(gè)主要類(lèi)別,而尾部類(lèi)別則受到數(shù)據(jù)稀缺的影響。這種不平衡導(dǎo)致對(duì)頭部類(lèi)別的預(yù)測(cè)偏差,降低了對(duì)尾部類(lèi)別的識(shí)別性能。另一方面,聲納圖像的高噪聲和細(xì)粒度特性需要更全面的特征提取,特別是邊緣紋理等淺層細(xì)節(jié)。大多數(shù)現(xiàn)有方法側(cè)重于樣本級(jí)學(xué)習(xí),忽略了宏觀(guān)層面的類(lèi)別關(guān)系,這限制了它們?cè)谔卣骺臻g中提高整體類(lèi)別可分性的能力。
基于以往研究的局限性,我們提出了一種用于長(zhǎng)尾聲納圖像識(shí)別的深度特征和類(lèi)別置信度一致性學(xué)習(xí)方法。從應(yīng)用的角度來(lái)看,我們?cè)O(shè)計(jì)了一種高效的針對(duì)水下聲納識(shí)別的端到端識(shí)別框架,即使在嚴(yán)重的類(lèi)不平衡和噪聲下,也能表現(xiàn)出很強(qiáng)的魯棒性和泛化性。從算法角度來(lái)看,我們?cè)谳斎肟臻g提出了變尺度空間和全局特征混合增強(qiáng)方法,在特征空間優(yōu)化方面,引入了多層級(jí)深度特征一致性約束和基于置信度一致性的類(lèi)別關(guān)系優(yōu)化策略。該模型優(yōu)化了聲納圖像識(shí)別任務(wù)中的長(zhǎng)尾分布問(wèn)題,提高了對(duì)尾類(lèi)的識(shí)別能力。在復(fù)雜的水下環(huán)境中,我們的方法減少了人工干預(yù)的需要,提高了智能聲納系統(tǒng)的穩(wěn)定性和可靠性。
主要內(nèi)容:

圖1 深度特征一致性正則化損失示意圖
為了增強(qiáng)樣本多樣性,并增強(qiáng)頭部和尾部數(shù)據(jù)之間的信息交換,我們采用了兩種圖像增強(qiáng)技術(shù):變尺度空間混合增強(qiáng)和全局特征混合增強(qiáng)。前者在空間域融合多尺度信息生成新圖像,后者在像素級(jí)融合全局特征的混合增強(qiáng)。
為學(xué)習(xí)更具判別性和廣義的特征表示,同時(shí)減少不相關(guān)特征的干擾,我們指導(dǎo)模型在不同抽象層次上從變尺度空間混合和全局特征混合增強(qiáng)樣本中保持特征一致性。在低級(jí)特征中加強(qiáng)一致性提高了模型捕獲細(xì)粒度空間細(xì)節(jié)的能力,而在高級(jí)特征中加強(qiáng)一致性有助于學(xué)習(xí)全局語(yǔ)義和抽象表示。第k層特征一致性正則化損失函數(shù)表示為:

在長(zhǎng)尾分布問(wèn)題中,來(lái)自神經(jīng)網(wǎng)絡(luò)不同層的多尺度信息在解決數(shù)據(jù)稀缺性和特征偏差方面起著至關(guān)重要的作用。為此,提出了一個(gè)深度特征一致性正則化損失:

深度特征一致性正則化損失函數(shù)通過(guò)約束單個(gè)樣本在樣本水平上優(yōu)化特征表示。然而,長(zhǎng)尾分布問(wèn)題存在于宏觀(guān)層面。分類(lèi)頻率和難度的不平衡進(jìn)一步增加了置信度分配的不確定性。對(duì)于單個(gè)樣本,我們將模型對(duì)給定類(lèi)別的非標(biāo)準(zhǔn)化預(yù)測(cè)輸出解釋為其置信度度量。我們使用余弦相似度約束不同增強(qiáng)策略下對(duì)應(yīng)類(lèi)別的類(lèi)別置信度賦值。類(lèi)別置信度一致性正則化損失函數(shù)定義為:

雙分支分類(lèi)損失定義為:

總體損失為分類(lèi)損失、深度特征一致性正則化損失和類(lèi)別置信度一致性正則化損失的加權(quán)和:

實(shí)驗(yàn)結(jié)果與分析:
我們?cè)谒膫€(gè)長(zhǎng)尾聲吶數(shù)據(jù)集和兩個(gè)基準(zhǔn)個(gè)廣泛使用的長(zhǎng)尾數(shù)據(jù)集上評(píng)估了我們提出的模型的性能。部分實(shí)驗(yàn)結(jié)果如表所示,在各個(gè)數(shù)據(jù)集上,我們提出的模型展現(xiàn)了出色的競(jìng)爭(zhēng)力:
表1 不同方法在MDWD、MDTD、NKSID和SILT-34數(shù)據(jù)集上Top-1精度、宏觀(guān)F1分?jǐn)?shù)和G-mean結(jié)果的比較

基線(xiàn)模型CE、解耦學(xué)習(xí)方法CE- DRS和我們提出的模型在SILT-34數(shù)據(jù)集上的CAM可視化結(jié)果如圖2所示。

圖2 類(lèi)激活映射可視化圖
結(jié)論:
本文提出了基于深度特征和類(lèi)別置信度一致性學(xué)習(xí)的長(zhǎng)尾聲納圖像識(shí)別方法。受解耦學(xué)習(xí)和一致性學(xué)習(xí)的啟發(fā),我們的方法增強(qiáng)了特征表示的可判別性和泛化性,同時(shí)減輕了分類(lèi)器對(duì)頭部類(lèi)別的偏見(jiàn)。在四個(gè)具有不同不平衡因素的長(zhǎng)尾聲納數(shù)據(jù)集和兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,性能得到了顯著提高,特別是在有效識(shí)別尾類(lèi)聲納圖像方面。該方法有助于在現(xiàn)實(shí)場(chǎng)景中更準(zhǔn)確地探測(cè)和分類(lèi)水下目標(biāo),提高智能聲納系統(tǒng)的效率和可靠性。
作者簡(jiǎn)介:
劉建偉,教師,學(xué)者。發(fā)表學(xué)術(shù)研究論文280多篇。研究領(lǐng)域涉及在線(xiàn)學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí),賭博機(jī)算法,持續(xù)學(xué)習(xí),長(zhǎng)尾學(xué)習(xí));圖像視頻顯著性目標(biāo)檢測(cè),解糾纏表示學(xué)習(xí),光場(chǎng)和神經(jīng)場(chǎng)模型,以及圖像視頻少樣本變化檢測(cè);自然語(yǔ)言理解中的知識(shí)補(bǔ)全,圖神經(jīng)網(wǎng)絡(luò);不平衡數(shù)據(jù)處理;霍克斯點(diǎn)過(guò)程故障預(yù)測(cè)與診斷;非線(xiàn)性預(yù)測(cè)與控制。 是兵器裝備工程學(xué)報(bào)第三屆編輯委員會(huì)委員。歷屆中國(guó)控制會(huì)議(CCC)和中國(guó)控制與決策會(huì)議(CCDC)的程序委員會(huì)委員。擔(dān)任過(guò)80多個(gè)國(guó)際會(huì)議的TPC。