中文題目:CCDepth:一種可解釋性增強(qiáng)的輕量化自監(jiān)督深度估計(jì)網(wǎng)絡(luò)
論文題目:CCDepth: A Lightweight Self-Supervised Depth Estimation Network with Enhanced Interpretability
錄用期刊/會(huì)議:IEEE ITSC (CAA A)
作者列表:
1) 張 熙 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 電子信息工程專(zhuān)業(yè) 本20
2) 薛亞茹 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 電子信息工程系 教師
3) 賈邵程 香港大學(xué) 土木工程系 博21
4) 裴 新 清華大學(xué) 自動(dòng)化系 教師
深度信息在自動(dòng)駕駛領(lǐng)域發(fā)揮著至關(guān)重要的作用,準(zhǔn)確的深度信息可以幫助自動(dòng)駕駛系統(tǒng)正確地感知和理解周?chē)h(huán)境。近年來(lái),僅以單目圖像序列為輸入的自監(jiān)督深度估計(jì)技術(shù)越來(lái)越受到人們的歡迎,擁有廣闊的前景。
當(dāng)前關(guān)于深度估計(jì)模型的研究主要集中在提高模型的預(yù)測(cè)精度方面,然而,過(guò)多的參數(shù)阻礙了模型在邊緣設(shè)備上的通用部署。此外,目前常用的神經(jīng)網(wǎng)絡(luò)作為黑盒模型,其內(nèi)部工作原理無(wú)法被數(shù)學(xué)解釋?zhuān)瑢?dǎo)致其性能難以被改進(jìn)。為了緩解這些問(wèn)題,本文提出了一種全新的、具有混合結(jié)構(gòu)的自監(jiān)督深度估計(jì)網(wǎng)絡(luò)CCDepth,該網(wǎng)絡(luò)由卷積神經(jīng)網(wǎng)絡(luò)(CNN)和白盒CRATE(Coding RAte reduction TransformEr)網(wǎng)絡(luò)組成。這個(gè)全新的網(wǎng)絡(luò)使用CNN和CRATE網(wǎng)絡(luò)層分別提取圖像中的局部和全局信息,從而提高網(wǎng)絡(luò)學(xué)習(xí)能力、降低模型參數(shù)量。此外,通過(guò)CRATE網(wǎng)絡(luò)的加入,本文提出的模型可以在捕捉全局特征的過(guò)程中被數(shù)學(xué)解釋。
在KITTI數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,本文提出的CCDepth網(wǎng)絡(luò)可以達(dá)到與當(dāng)前最先進(jìn)方法相當(dāng)?shù)男阅?,同時(shí)模型尺寸已顯著減少。此外,對(duì)CCDepth網(wǎng)絡(luò)內(nèi)部特征的一系列定量和定性分析進(jìn)一步證實(shí)了本文所提方法的有效性。
近年來(lái),伴隨著人工智能的快速發(fā)展,人工智能的相關(guān)技術(shù)已經(jīng)深入到人們的日常生活中。深度估計(jì)是自動(dòng)駕駛系統(tǒng)的關(guān)鍵技術(shù)之一,發(fā)揮著讓系統(tǒng)準(zhǔn)確感知周?chē)h(huán)境的任務(wù)。目前對(duì)于深度估計(jì)模型預(yù)測(cè)精度的研究已經(jīng)較為完善,但是模型參數(shù)量輕量化和可解釋性方面還存在局限和空白,限制著深度估計(jì)模型在自動(dòng)駕駛領(lǐng)域的具體落地。

圖1 CCDepth網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)
圖1為本文提出的CCDepth網(wǎng)絡(luò)結(jié)構(gòu)圖,模型采用U-Net架構(gòu),編碼器以RGB圖像為輸入,通過(guò)特征提取,在解碼器網(wǎng)絡(luò)得到圖像深度的預(yù)測(cè)值。網(wǎng)絡(luò)采用CNN-CRATE串聯(lián)的結(jié)構(gòu),在圖像分辨率大的部分,由CNN網(wǎng)絡(luò)層提取圖像的局部信息;在分辨率低的部分,利用CRATE網(wǎng)絡(luò)層提取圖像的全局信息。另外,網(wǎng)絡(luò)會(huì)通過(guò)跳躍連接方式將U-Net編碼器淺層提取到的細(xì)節(jié)特征直接傳輸至解碼器的對(duì)應(yīng)位置,以避免信息的丟失。
如圖2所示,為本文采用的CNN網(wǎng)絡(luò)層結(jié)構(gòu),該網(wǎng)絡(luò)由兩個(gè)最簡(jiǎn)單的殘差塊構(gòu)成。卷積核邊緣填充方式采用反射填充。

圖2 CNN網(wǎng)絡(luò)層結(jié)構(gòu)
圖3為本文CRATE網(wǎng)絡(luò)層的工作流程,主要分為五步:第一步,將輸入圖像分割為若干圖像塊;第二步,破壞圖像的二維結(jié)構(gòu),將圖像塊展開(kāi)為一個(gè)序列;第三步,被映射為一個(gè)向量,并輸入CRATE網(wǎng)絡(luò);第四步,向量集合(tokens)在CRATE網(wǎng)絡(luò)中學(xué)習(xí)并被更新;第五步,向量集合被重新組合為圖像格式,得到該層的輸出特征圖,即步驟2的逆過(guò)程。

圖3 CRATE網(wǎng)絡(luò)層的工作流程
圖4為CRATE網(wǎng)絡(luò)的基礎(chǔ)模塊結(jié)構(gòu)圖,網(wǎng)絡(luò)由多頭子空間自注意力模塊(Multi-Head Subspace Self-Attention block,MSSA)和一個(gè)迭代收縮閾值算法模塊(Iterative Shrinkage-Thresholding Algorithms block,ISTA)構(gòu)成,分別擔(dān)任壓縮(去噪)和稀疏化的操作。

圖4 CRATE網(wǎng)絡(luò)的基本模塊
如圖5所示,CCDepth網(wǎng)絡(luò)在自監(jiān)督學(xué)習(xí)框架下進(jìn)行訓(xùn)練,整個(gè)深度估計(jì)網(wǎng)絡(luò)由深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)兩部分構(gòu)成。深度網(wǎng)絡(luò)接收視頻序列中當(dāng)前幀圖像
,經(jīng)過(guò)編碼器-解碼器網(wǎng)絡(luò)獲得深度估計(jì)圖
,姿態(tài)網(wǎng)絡(luò)接收當(dāng)前幀圖像
和相鄰幀圖像
,其中
,并從中提取相機(jī)的位移信息。隨后,根據(jù)
與相機(jī)的位移信息
,進(jìn)行圖像重構(gòu),得到對(duì)
的重構(gòu)圖像
,并計(jì)算訓(xùn)練損失。

圖5 CCDepth網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí)訓(xùn)練框架
表1所示,為本文提出的CCDepth模型與現(xiàn)有先進(jìn)模型的定量對(duì)比結(jié)果。CCDepth在KITTI測(cè)試集的預(yù)測(cè)誤差和精度上取得了更好的表現(xiàn)。同時(shí),模型參數(shù)量?jī)H有12.6M,相較于Monodepth2和FSLNet分別下降78.8%和23.6%。
表1 自監(jiān)督深度估計(jì)在KITTI數(shù)據(jù)集上的定量結(jié)果
模型 |
誤差,越小越好 |
精度,越大越好 |
模型 參數(shù)量 |
|||||
|
Abs Rel |
Sq Rel |
RMSE |
RMSE log |
|
|
|
|
Zhou et al. |
0.208 |
1.768 |
6.856 |
0.283 |
0.678 |
0.885 |
0.957 |
126.0M |
Geonet |
0.153 |
1.328 |
5.737 |
0.232 |
0.802 |
0.934 |
0.972 |
229.3M |
Casser et al. |
0.141 |
1.138 |
5.521 |
0.219 |
0.820 |
0.942 |
0.976 |
67.0M |
Monodepth2 |
0.115 |
0.903 |
4.863 |
0.193 |
0.877 |
0.959 |
0.981 |
59.4M |
FSLNet-L |
0.128 |
0.897 |
4.905 |
0.200 |
0.852 |
0.953 |
0.980 |
16.5M |
CNN-ViT |
0.119 |
0.857 |
4.789 |
0.194 |
0.867 |
0.958 |
0.981 |
17.4M |
CCDepth (Our) |
0.115 |
0.830 |
4.737 |
0.190 |
0.874 |
0.959 |
0.982 |
12.6M |
圖6所示,為自監(jiān)督深度估計(jì)任務(wù)上的定性對(duì)比結(jié)果。由標(biāo)記框中的內(nèi)容可以定性分析得出,本文提出的模型在圖像深度預(yù)測(cè)上,尤其是對(duì)于細(xì)小障礙物和天空距離的識(shí)別方面,優(yōu)于其他的模型。這是由于CCDepth采用了基于CNN和CRATE的混合網(wǎng)絡(luò)結(jié)構(gòu),因此可以更加有效地提取圖像局部和全局特征。

圖6 自監(jiān)督深度估計(jì)的定性結(jié)果
表2與表3所示,為本文的消融實(shí)驗(yàn)結(jié)果。在本部分,通過(guò)實(shí)驗(yàn)證明了網(wǎng)絡(luò)多尺度預(yù)測(cè)和卷積核反射填充方式的必要性。
表2 不同預(yù)測(cè)尺度下的消融研究
Scales |
誤差,越小越好 |
精度,越大越好 |
|||||
|
Abs Rel |
Sq Rel |
RMSE |
RMSE log |
|
|
|
1 |
0.119 |
0.860 |
4.750 |
0.194 |
0.870 |
0.958 |
0.981 |
2 |
0.121 |
0.861 |
4.760 |
0.195 |
0.866 |
0.957 |
0.981 |
3 |
0.118 |
0.841 |
4.738 |
0.194 |
0.870 |
0.958 |
0.981 |
4 |
0.115 |
0.830 |
4.737 |
0.190 |
0.874 |
0.959 |
0.982 |
表3 不同填充方式下的消融研究
Padding mode |
誤差,越小越好 |
精度,越大越好 |
|||||
Abs Rel |
Sq Rel |
RMSE |
RMSE log |
|
|
|
|
zeros |
0.118 |
0.858 |
4.755 |
0.193 |
0.870 |
0.958 |
0.981 |
reflect |
0.115 |
0.830 |
4.737 |
0.190 |
0.874 |
0.959 |
0.982 |
圖7所示,為CRATE網(wǎng)絡(luò)內(nèi)部各模塊輸出的非零項(xiàng)占比對(duì)比,可以分析得到,CRATE網(wǎng)絡(luò)在深度估計(jì)任務(wù)中有效地為所有數(shù)據(jù)實(shí)現(xiàn)壓縮(去噪)和稀疏化,將特征向低秩轉(zhuǎn)化,以更好地暴露全局信息。

圖7 CRATE網(wǎng)絡(luò)層內(nèi)各模塊輸出的非零項(xiàng)占比對(duì)比,(a)CCDepth中第一個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果,(b)CCDepth中第二個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果,(c)CCDepth中第三個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果,(d)CCDepth中第四個(gè)CRATE網(wǎng)絡(luò)層的結(jié)果。
圖8所示,為網(wǎng)絡(luò)中CNN和CRATE網(wǎng)絡(luò)層的特征圖??梢悦黠@地看出,CNN網(wǎng)絡(luò)(layer 3和layer 8)更強(qiáng)調(diào)提取圖像的具體形狀和邊緣細(xì)節(jié)。相比之下,CRATE網(wǎng)絡(luò)則側(cè)重于描述圖像的環(huán)境等全局結(jié)構(gòu)。這與CCDepth最初設(shè)計(jì)中通過(guò)CNN-CRATE結(jié)構(gòu)分別提取圖像細(xì)節(jié)和全局信息的理念相吻合,進(jìn)一步肯定了CCDepth網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的有效性。

圖8 CNN和CRATE特征圖的可視化結(jié)果
本文提出了一種全新的深度估計(jì)網(wǎng)絡(luò)CCDepth,該網(wǎng)絡(luò)通過(guò)CNN和CRATE分別提取圖像的細(xì)節(jié)和全局信息,以實(shí)現(xiàn)在自監(jiān)督深度估計(jì)任務(wù)中高效地提取有用特征。相比較于現(xiàn)有的先進(jìn)模型,CCDepth擁有更高的準(zhǔn)確度,顯著降低了模型參數(shù)量,并提升了網(wǎng)絡(luò)可解釋性。
薛亞茹,副教授,博士生導(dǎo)師/碩士生導(dǎo)師。主要從事信號(hào)處理、圖像處理、人工智能、地球物理反演等方面研究。