大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

CCDepth:一種可解釋性增強(qiáng)的輕量化自監(jiān)督深度估計(jì)網(wǎng)絡(luò)

中文題目:CCDepth:一種可解釋性增強(qiáng)的輕量化自監(jiān)督深度估計(jì)網(wǎng)絡(luò)

論文題目CCDepth: A Lightweight Self-Supervised Depth Estimation Network with Enhanced Interpretability

錄用期刊/會(huì)議IEEE ITSC (CAA A)

作者列表

1 張 熙 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20

2 薛亞茹 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 電子信息工程系 教師

3 賈邵程 香港大學(xué) 土木工程系 博21

4) 裴 新 清華大學(xué) 自動(dòng)化系 教師

摘要:

深度信息在自動(dòng)駕駛領(lǐng)域發(fā)揮著至關(guān)重要的作用,準(zhǔn)確的深度信息可以幫助自動(dòng)駕駛系統(tǒng)正確地感知和理解周?chē)h(huán)境。近年來(lái),僅以單目圖像序列為輸入的自監(jiān)督深度估計(jì)技術(shù)越來(lái)越受到人們的歡迎,擁有廣闊的前景。

當(dāng)前關(guān)于深度估計(jì)模型的研究主要集中在提高模型的預(yù)測(cè)精度方面,然而,過(guò)多的參數(shù)阻礙了模型在邊緣設(shè)備上的通用部署。此外,目前常用的神經(jīng)網(wǎng)絡(luò)作為黑盒模型,其內(nèi)部工作原理無(wú)法被數(shù)學(xué)解釋?zhuān)瑢?dǎo)致其性能難以被改進(jìn)。為了緩解這些問(wèn)題,本文提出了一種全新的、具有混合結(jié)構(gòu)的自監(jiān)督深度估計(jì)網(wǎng)絡(luò)CCDepth,該網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和白盒CRATECoding RAte reduction TransformEr)網(wǎng)絡(luò)組成。這個(gè)全新的網(wǎng)絡(luò)使用CNNCRATE網(wǎng)絡(luò)層分別提取圖像中的局部和全局信息,從而提高網(wǎng)絡(luò)學(xué)習(xí)能力、降低模型參數(shù)量。此外,通過(guò)CRATE網(wǎng)絡(luò)的加入,本文提出的模型可以在捕捉全局特征的過(guò)程中被數(shù)學(xué)解釋。

KITTI數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,本文提出的CCDepth網(wǎng)絡(luò)可以達(dá)到與當(dāng)前最先進(jìn)方法相當(dāng)?shù)男阅?,同時(shí)模型尺寸已顯著減少。此外,對(duì)CCDepth網(wǎng)絡(luò)內(nèi)部特征的一系列定量和定性分析進(jìn)一步證實(shí)了本文所提方法的有效性。

背景與動(dòng)機(jī):

近年來(lái),伴隨著人工智能的快速發(fā)展,人工智能的相關(guān)技術(shù)已經(jīng)深入到人們的日常生活中。深度估計(jì)是自動(dòng)駕駛系統(tǒng)的關(guān)鍵技術(shù)之一,發(fā)揮著讓系統(tǒng)準(zhǔn)確感知周?chē)h(huán)境的任務(wù)。目前對(duì)于深度估計(jì)模型預(yù)測(cè)精度的研究已經(jīng)較為完善,但是模型參數(shù)量輕量化和可解釋性方面還存在局限和空白,限制著深度估計(jì)模型在自動(dòng)駕駛領(lǐng)域的具體落地。

設(shè)計(jì)與實(shí)現(xiàn):



1 CCDepth網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)


1為本文提出的CCDepth網(wǎng)絡(luò)結(jié)構(gòu)圖,模型采用U-Net架構(gòu),編碼器以RGB圖像為輸入,通過(guò)特征提取,在解碼器網(wǎng)絡(luò)得到圖像深度的預(yù)測(cè)值。網(wǎng)絡(luò)采用CNN-CRATE串聯(lián)的結(jié)構(gòu),在圖像分辨率大的部分,由CNN網(wǎng)絡(luò)層提取圖像的局部信息;在分辨率低的部分,利用CRATE網(wǎng)絡(luò)層提取圖像的全局信息。另外,網(wǎng)絡(luò)會(huì)通過(guò)跳躍連接方式將U-Net編碼器淺層提取到的細(xì)節(jié)特征直接傳輸至解碼器的對(duì)應(yīng)位置,以避免信息的丟失。

如圖2所示,為本文采用的CNN網(wǎng)絡(luò)層結(jié)構(gòu),該網(wǎng)絡(luò)由兩個(gè)最簡(jiǎn)單的殘差塊構(gòu)成。卷積核邊緣填充方式采用反射填充。



2 CNN網(wǎng)絡(luò)層結(jié)構(gòu)


3為本文CRATE網(wǎng)絡(luò)層的工作流程,主要分為五步:第一步,將輸入圖像分割為若干圖像塊;第二步,破壞圖像的二維結(jié)構(gòu),將圖像塊展開(kāi)為一個(gè)序列;第三步,被映射為一個(gè)向量,并輸入CRATE網(wǎng)絡(luò);第四步,向量集合(tokens)在CRATE網(wǎng)絡(luò)中學(xué)習(xí)并被更新;第五步,向量集合被重新組合為圖像格式,得到該層的輸出特征圖,即步驟2的逆過(guò)程。



3 CRATE網(wǎng)絡(luò)層的工作流程


4CRATE網(wǎng)絡(luò)的基礎(chǔ)模塊結(jié)構(gòu)圖,網(wǎng)絡(luò)由多頭子空間自注意力模塊(Multi-Head Subspace Self-Attention block,MSSA)和一個(gè)迭代收縮閾值算法模塊(Iterative Shrinkage-Thresholding Algorithms block,ISTA)構(gòu)成,分別擔(dān)任壓縮(去噪)和稀疏化的操作。



4 CRATE網(wǎng)絡(luò)的基本模塊


如圖5所示,CCDepth網(wǎng)絡(luò)在自監(jiān)督學(xué)習(xí)框架下進(jìn)行訓(xùn)練,整個(gè)深度估計(jì)網(wǎng)絡(luò)由深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)兩部分構(gòu)成。深度網(wǎng)絡(luò)接收視頻序列中當(dāng)前幀圖像,經(jīng)過(guò)編碼器-解碼器網(wǎng)絡(luò)獲得深度估計(jì)圖,姿態(tài)網(wǎng)絡(luò)接收當(dāng)前幀圖像和相鄰幀圖像,其中,并從中提取相機(jī)的位移信息。隨后,根據(jù)與相機(jī)的位移信息,進(jìn)行圖像重構(gòu),得到對(duì)的重構(gòu)圖像,并計(jì)算訓(xùn)練損失。



5 CCDepth網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí)訓(xùn)練框架

實(shí)驗(yàn)結(jié)果及分析:

1所示,為本文提出的CCDepth模型與現(xiàn)有先進(jìn)模型的定量對(duì)比結(jié)果。CCDepthKITTI測(cè)試集的預(yù)測(cè)誤差和精度上取得了更好的表現(xiàn)。同時(shí),模型參數(shù)量?jī)H有12.6M,相較于Monodepth2FSLNet分別下降78.8%23.6%。


1 自監(jiān)督深度估計(jì)在KITTI數(shù)據(jù)集上的定量結(jié)果

模型

誤差,越小越好

精度,越大越好

模型

參數(shù)量

Abs Rel

Sq Rel

RMSE

RMSE log







Zhou et al.

0.208

1.768

6.856

0.283

0.678

0.885

0.957

126.0M

Geonet

0.153

1.328

5.737

0.232

0.802

0.934

0.972

229.3M

Casser et al.

0.141

1.138

5.521

0.219

0.820

0.942

0.976

67.0M

Monodepth2

0.115

0.903

4.863

0.193

0.877

0.959

0.981

59.4M

FSLNet-L

0.128

0.897

4.905

0.200

0.852

0.953

0.980

16.5M

CNN-ViT

0.119

0.857

4.789

0.194

0.867

0.958

0.981

17.4M

CCDepth (Our)

0.115

0.830

4.737

0.190

0.874

0.959

0.982

12.6M


6所示,為自監(jiān)督深度估計(jì)任務(wù)上的定性對(duì)比結(jié)果。由標(biāo)記框中的內(nèi)容可以定性分析得出,本文提出的模型在圖像深度預(yù)測(cè)上,尤其是對(duì)于細(xì)小障礙物和天空距離的識(shí)別方面,優(yōu)于其他的模型。這是由于CCDepth采用了基于CNNCRATE的混合網(wǎng)絡(luò)結(jié)構(gòu),因此可以更加有效地提取圖像局部和全局特征。



6 自監(jiān)督深度估計(jì)的定性結(jié)果


2與表3所示,為本文的消融實(shí)驗(yàn)結(jié)果。在本部分,通過(guò)實(shí)驗(yàn)證明了網(wǎng)絡(luò)多尺度預(yù)測(cè)和卷積核反射填充方式的必要性。


2 不同預(yù)測(cè)尺度下的消融研究

Scales

誤差,越小越好

精度,越大越好

Abs Rel

Sq Rel

RMSE

RMSE log







1

0.119

0.860

4.750

0.194

0.870

0.958

0.981

2

0.121

0.861

4.760

0.195

0.866

0.957

0.981

3

0.118

0.841

4.738

0.194

0.870

0.958

0.981

4

0.115

0.830

4.737

0.190

0.874

0.959

0.982


3 不同填充方式下的消融研究

Padding mode

誤差,越小越好

精度,越大越好

Abs Rel

Sq Rel

RMSE

RMSE log







zeros

0.118

0.858

4.755

0.193

0.870

0.958

0.981

reflect

0.115

0.830

4.737

0.190

0.874

0.959

0.982


7所示,為CRATE網(wǎng)絡(luò)內(nèi)部各模塊輸出的非零項(xiàng)占比對(duì)比,可以分析得到,CRATE網(wǎng)絡(luò)在深度估計(jì)任務(wù)中有效地為所有數(shù)據(jù)實(shí)現(xiàn)壓縮(去噪)和稀疏化,將特征向低秩轉(zhuǎn)化,以更好地暴露全局信息。


7 CRATE網(wǎng)絡(luò)層內(nèi)各模塊輸出的非零項(xiàng)占比對(duì)比,(aCCDepth中第一個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果,(bCCDepth中第二個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果,(cCCDepth中第三個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果,(dCCDepth中第四個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果。


8所示,為網(wǎng)絡(luò)中CNNCRATE網(wǎng)絡(luò)層的特征圖??梢悦黠@地看出,CNN網(wǎng)絡(luò)(layer 3layer 8)更強(qiáng)調(diào)提取圖像的具體形狀和邊緣細(xì)節(jié)。相比之下,CRATE網(wǎng)絡(luò)則側(cè)重于描述圖像的環(huán)境等全局結(jié)構(gòu)。這與CCDepth最初設(shè)計(jì)中通過(guò)CNN-CRATE結(jié)構(gòu)分別提取圖像細(xì)節(jié)和全局信息的理念相吻合,進(jìn)一步肯定了CCDepth網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的有效性。



8 CNNCRATE特征圖的可視化結(jié)果

結(jié)論:

本文提出了一種全新的深度估計(jì)網(wǎng)絡(luò)CCDepth,該網(wǎng)絡(luò)通過(guò)CNNCRATE分別提取圖像的細(xì)節(jié)和全局信息,以實(shí)現(xiàn)在自監(jiān)督深度估計(jì)任務(wù)中高效地提取有用特征。相比較于現(xiàn)有的先進(jìn)模型,CCDepth擁有更高的準(zhǔn)確度,顯著降低了模型參數(shù)量,并提升了網(wǎng)絡(luò)可解釋性。

作者簡(jiǎn)介:

薛亞茹,副教授,博士生導(dǎo)師/碩士生導(dǎo)師。主要從事信號(hào)處理、圖像處理、人工智能、地球物理反演等方面研究。