大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

多天氣恢復(fù)任務(wù):一種基于提示引導(dǎo)的高效卷積架構(gòu)

中文題目:多天氣恢復(fù)任務(wù):一種基于提示引導(dǎo)的高效卷積架構(gòu)

論文題目:Multi-weather restoration: An efficient prompt-guided convolution architecture

錄用期刊/會(huì)議:IEEE Transactions on Circuits and Systems for Video Technology (SCI 1區(qū)TOP,CCF B)

原文DOI:10.1109/TCSVT.2024.3469190

原文鏈接:https://ieeexplore.ieee.org/document/10697214

錄用/見(jiàn)刊時(shí)間:2024年9月27日

作者列表

1) 李承陽(yáng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能與科學(xué)系教師

2) 孫方偉 軍事科學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 23

3 周   恒 江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院 人工智能系教師

4 謝永強(qiáng) 軍事科學(xué)院 研究員

5 李忠博 軍事科學(xué)院 高級(jí)工程師

6) 朱麗萍 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師

摘要:

應(yīng)對(duì)惡劣天氣條件在實(shí)際應(yīng)用中起著至關(guān)重要的作用。許多現(xiàn)有的恢復(fù)方法僅限于特定的天氣類(lèi)型,這限制了它們?cè)诓煌鞖鈭?chǎng)景中的適用性。研究者們已經(jīng)利用包括 Transformer 和擴(kuò)散模型在內(nèi)的先進(jìn)技術(shù)來(lái)應(yīng)對(duì)這一挑戰(zhàn)。然而,這些方法通常會(huì)增加網(wǎng)絡(luò)復(fù)雜性并延長(zhǎng)推理時(shí)間。為此,本文提出MW-ConvNet,一種用于多天氣恢復(fù)的基于 U 形卷積的網(wǎng)絡(luò)。具體來(lái)說(shuō),引入了 MW-Enc 塊和 MW-Dec 塊來(lái)實(shí)現(xiàn)簡(jiǎn)單但強(qiáng)大的特征提取,這完全依賴(lài)于傳統(tǒng)的 2D 卷積。為了提高對(duì)多種天氣條件的適應(yīng)性,設(shè)計(jì)了一個(gè)提示生成模塊來(lái)在編碼器的終端生成代表性的天氣提示。從風(fēng)格轉(zhuǎn)換中汲取靈感,天氣提示用于指導(dǎo)解碼器通過(guò)漸進(jìn)式恢復(fù)程序進(jìn)行學(xué)習(xí)。對(duì)于未來(lái)的高保真恢復(fù),在編碼器階段通過(guò)小波池化塊引入頻率分離,在解碼器階段引入相應(yīng)的上采樣塊。低頻和高頻特征的分離處理抑制了網(wǎng)絡(luò)計(jì)算過(guò)程中紋理信息的丟失。它還提高了生成的天氣提示的質(zhì)量和準(zhǔn)確性。大量實(shí)驗(yàn)表明,與最先進(jìn)的方法相比,所提出的 MW-ConvNet 在特定天氣和現(xiàn)實(shí)世界恢復(fù)任務(wù)中都獲得了卓越的性能。值得注意的是,本文方法實(shí)現(xiàn)了每 256x256 圖像 0.12 秒的驚人推理速度,超過(guò)了基于Transformer和基于Diffusion的模型。

背景與動(dòng)機(jī):

多天氣條件下的圖像恢復(fù)對(duì)于增強(qiáng)自主系統(tǒng)的感知能力以及提高航空偵察能力至關(guān)重要。真實(shí)世界的場(chǎng)景經(jīng)常受到霧、雨和雪等惡劣天氣條件的影響,這些條件會(huì)扭曲圖像并阻礙能見(jiàn)度。這些失真對(duì)下游任務(wù)如目標(biāo)檢測(cè)和目標(biāo)跟蹤產(chǎn)生了不利影響。盡管在解決特定退化問(wèn)題方面已經(jīng)取得了實(shí)質(zhì)性進(jìn)展,例如去霧、去雨和去雪,但大多數(shù)現(xiàn)有方法都是針對(duì)單一天氣條件設(shè)計(jì)的。這一限制限制了它們?cè)谡鎸?shí)世界場(chǎng)景中的有效性,真實(shí)世界場(chǎng)景中通常會(huì)同時(shí)出現(xiàn)多種天氣條件。為了應(yīng)對(duì)多種天氣退化,最近出現(xiàn)了一些有意義的研究工作。All-in-One首次引入這種多天氣恢復(fù)任務(wù)。它還提出了一個(gè)統(tǒng)一的框架,該框架利用特定任務(wù)的編碼器和多功能解碼器,通過(guò)神經(jīng)架構(gòu)搜索進(jìn)一步優(yōu)化,以實(shí)現(xiàn)有效的特征融合。TransWeather利用Transformer模型,采用了基于Transformer的編碼器和解碼器結(jié)構(gòu)來(lái)提升性能。此外,WeatherDiff引入了擴(kuò)散模型,并設(shè)計(jì)了一種基于補(bǔ)丁的條件擴(kuò)散方法。盡管這些方法顯示出相當(dāng)大的潛力,但它們也導(dǎo)致訓(xùn)練參數(shù)數(shù)量的顯著增加,導(dǎo)致訓(xùn)練復(fù)雜性和推理時(shí)間方面的挑戰(zhàn)。

設(shè)計(jì)與實(shí)現(xiàn):

為了滿(mǎn)足實(shí)時(shí)性要求并設(shè)計(jì)一種簡(jiǎn)單高效的多降質(zhì)恢復(fù)算法,本文提出一種完全基于簡(jiǎn)單卷積的多降質(zhì)恢復(fù)網(wǎng)絡(luò)MW-ConvNet。該網(wǎng)絡(luò)旨在解決多種降質(zhì)因素導(dǎo)致的圖像退化問(wèn)題,其整體架構(gòu)如下圖所示。MW-ConvNet采用含有跳躍連接的經(jīng)典U形網(wǎng)絡(luò)U-Net的結(jié)構(gòu)。其整體架構(gòu)可以劃分為五個(gè)連續(xù)階段,依次為淺層特征提取階段、編碼器階段、提示生成模塊、解碼器階段和圖像重建階段。


在初始階段,采用2個(gè)3x3的卷積運(yùn)算進(jìn)行淺層特征提取,將輸入圖像映射到高維特征空間。淺層特征的維度為dxHxW,d表示特征通道數(shù),H和W表示特征圖的尺寸。編碼器階段被劃分為5個(gè)子階段,每個(gè)子階段對(duì)應(yīng)不同的特征尺度,MW-Enc塊的數(shù)量依次設(shè)置為[2, 2, 4, 8, 5]。在前4個(gè)子階段尾部,加入小波池化塊以進(jìn)行下采樣。該模塊將功能解耦到四個(gè)頻域,從而實(shí)現(xiàn)高低頻特征的分離。與編碼器對(duì)應(yīng),解碼器階段同樣分為5個(gè)子階段,MW-Dec塊的數(shù)量依次設(shè)置為[5,2,2,2,2]。在前四個(gè)子階段尾部,上采樣模塊被使用來(lái)放大特征圖尺寸。最終,圖像重建階段由2個(gè)3x3卷積組成,將特征圖重新恢復(fù)到原始的圖像空間,其維度為3xHxW。

提示生成模塊位于編碼器階段和解碼器階段之間,其作用是為解碼器階段中的MW-Dec塊提取表征降質(zhì)因素的降質(zhì)提示向量。在訓(xùn)練期間,該模塊通過(guò)引入額外的約束損失來(lái)促進(jìn)降質(zhì)提示的學(xué)習(xí)過(guò)程。該模塊的設(shè)計(jì)旨在提升網(wǎng)絡(luò)的降質(zhì)特征表示能力,并為解碼器提供準(zhǔn)確的降質(zhì)提示信息,從而增強(qiáng)模型對(duì)降質(zhì)特征的敏感性,并實(shí)現(xiàn)更好的圖像重建效果。在多降質(zhì)恢復(fù)任務(wù)中,核心挑戰(zhàn)在于如何在網(wǎng)絡(luò)執(zhí)行過(guò)程中有效地分離不同的降質(zhì)因素,并生成相應(yīng)的解決方案。根據(jù)以往的研究,可以將每種降質(zhì)因素視為一個(gè)獨(dú)立的風(fēng)格域?;诖硕x,降質(zhì)提示歸一化方法被提出作為一種簡(jiǎn)單有效的方法,用于協(xié)調(diào)和融合圖像特征和降質(zhì)提示向量,使兩者有機(jī)地結(jié)合起來(lái)。這種方法不僅通過(guò)特定降質(zhì)特征的統(tǒng)計(jì)數(shù)據(jù)實(shí)現(xiàn)了特征級(jí)的風(fēng)格轉(zhuǎn)換,而且還保留了特征圖中細(xì)節(jié)信息的空間結(jié)構(gòu)。通過(guò)引入降質(zhì)提示向量,MW-Dec塊能夠有效地提高解碼器的性能和魯棒性,為在同一模型內(nèi)分離處理不同降質(zhì)提供了一種靈活而可靠的解決方案。

實(shí)驗(yàn)結(jié)果及分析:

實(shí)驗(yàn)數(shù)據(jù)集主要涵蓋三種降質(zhì)場(chǎng)景,分別為雨滴、雨霧、雪。為了確保公平比較,采用與All-in-one和TransWeather論文中相同的訓(xùn)練集和測(cè)試集,被稱(chēng)為“AllWeather”。對(duì)于去雨滴、去霧和雨、去雪任務(wù)的定量比較中,將參與比較的方法分為兩類(lèi):特定降質(zhì)和多降質(zhì)。其中,特定降質(zhì)方法是針對(duì)特定降質(zhì)數(shù)據(jù)集進(jìn)行定制訓(xùn)練,以專(zhuān)門(mén)處理單個(gè)降質(zhì)恢復(fù)任務(wù),而多降質(zhì)方法則通過(guò)訓(xùn)練統(tǒng)一模型來(lái)同時(shí)處理所有降質(zhì)恢復(fù)任務(wù)。MW-ConvNet在多降質(zhì)恢復(fù)任務(wù)中表現(xiàn)出優(yōu)異的性能,體現(xiàn)在其較高的PSNR和SSIM分?jǐn)?shù)。此外,其訓(xùn)練過(guò)程也相對(duì)穩(wěn)定,能夠快速地收斂訓(xùn)練損失。相比基于Transformer的方法(如TransWeather)和基于擴(kuò)散的方法(如WeatherDiff),基于CNN架構(gòu)的MW-ConvNet有效地解決算力需求較大的挑戰(zhàn),極大增強(qiáng)實(shí)際部署場(chǎng)景中的實(shí)用性。

同時(shí),進(jìn)行了實(shí)驗(yàn)對(duì)不同恢復(fù)方法的推理時(shí)間進(jìn)行比較分析,如下表所示。在所有方法的測(cè)試實(shí)驗(yàn)中,統(tǒng)一采用相同的輸入圖像尺寸256x256。值得注意的是,MD-ConvNet具有最快的推理速度,每張圖像僅需0.12秒就可以完成圖像恢復(fù)。僅基于卷積的模型架構(gòu)成為提高其效率的關(guān)鍵因素,并且采用多尺度和編碼器-解碼器的設(shè)計(jì)進(jìn)一步提升特征豐富度和利用率,從而達(dá)到基于較大參數(shù)模型Transformer和擴(kuò)散模型相同的實(shí)驗(yàn)性能。

結(jié)論:

本文重新思考了傳統(tǒng)的2-D卷積,并發(fā)現(xiàn)基于卷積的模型可以實(shí)現(xiàn)與基于Transformer和基于Diffusion的模型相似的性能?;谶@一觀(guān)察,本文提出了一個(gè)簡(jiǎn)單而高效的卷積架構(gòu)MW-ConvNet,用于多天氣恢復(fù)。MW-ConvNet采用了帶有無(wú)激活特征提取塊MW-Enc和MW-Dec的U形編碼器-解碼器架構(gòu)。為了解決多種天氣共存的問(wèn)題,在編碼器的末端引入了提示學(xué)習(xí),以生成一個(gè)天氣提示。通過(guò)強(qiáng)大的約束,這個(gè)提示具有強(qiáng)大的天氣感知能力,用于指導(dǎo)圖像重建。此外,引入了小波池化塊和上采樣塊進(jìn)行頻率分離,以實(shí)現(xiàn)高質(zhì)量的提示和高保真的恢復(fù)。在合成和真實(shí)世界的多天氣數(shù)據(jù)集上的比較實(shí)驗(yàn)證明,MW-ConvNet在性能和推理時(shí)間方面比其他當(dāng)前最先進(jìn)的方法具有優(yōu)勢(shì)。這些結(jié)果高度表明了2D卷積的強(qiáng)大特征提取能力和網(wǎng)絡(luò)中提示的引導(dǎo)能力。本文為未來(lái)研究提供了啟示:最新的先進(jìn)技術(shù)值得探索用于各種應(yīng)用。然而,在某些任務(wù)中(例如本文中的多天氣恢復(fù)),小型模型也可以實(shí)現(xiàn)最先進(jìn)的性能,這些模型更易于部署在實(shí)際受限場(chǎng)景中。

作者簡(jiǎn)介:

李承陽(yáng),特任崗位副教授。博士,中國(guó)石油大學(xué)(北京)人工智能學(xué)院智能科學(xué)與技術(shù)系教師,主要研究方向?yàn)閺?fù)雜環(huán)境多模態(tài)智能感知技術(shù)。