大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

背景減法的視覺(jué)語(yǔ)言對(duì)齊

中文題目:背景減法的視覺(jué)語(yǔ)言對(duì)齊

論文題目:Visual-Language Alignment for Background Subtraction

錄用期刊/會(huì)議:IEEE International Conference on Multimedia & Expo (CCF B)

作者列表

1) 劉葭荷 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù) 研22

2) 朱丹丹 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)系副教授

3) Sajid Javed 哈利法大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 計(jì)算機(jī)科學(xué) 助理教授

摘要:

背景減法(BGS)是視頻分析中的一項(xiàng)基本任務(wù),對(duì)許多應(yīng)用場(chǎng)景都至關(guān)重要。盡管開(kāi)發(fā)了各種方法來(lái)解決移動(dòng)物體的識(shí)別問(wèn)題,但在面對(duì)現(xiàn)實(shí)世界中固有的復(fù)雜挑戰(zhàn)時(shí),目前的技術(shù)還遠(yuǎn)遠(yuǎn)不夠。持續(xù)存在的兩個(gè)挑戰(zhàn)是動(dòng)態(tài)背景的存在,其中環(huán)境背景不斷變化,以及相機(jī)抖動(dòng),這會(huì)給場(chǎng)景帶來(lái)不穩(wěn)定的運(yùn)動(dòng)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,本文首次引入了為BGS任務(wù)設(shè)計(jì)的視覺(jué)語(yǔ)言模型,利用語(yǔ)言和視覺(jué)信息的集成,在背景減法的背景下增強(qiáng)對(duì)復(fù)雜場(chǎng)景的理解和解釋。本研究的模型已經(jīng)在廣泛的CDNet-2014數(shù)據(jù)集中的三個(gè)類(lèi)別中進(jìn)行了嚴(yán)格的測(cè)試,結(jié)果表明平均F值為0.9771,突出展示了模型的熟練程度。這項(xiàng)研究為BGS提供了一個(gè)新的視角和新穎的解決方案,特別是在復(fù)雜的視頻場(chǎng)景中。

設(shè)計(jì)與實(shí)現(xiàn):

本文工作的主要貢獻(xiàn)在于引入了一種專(zhuān)門(mén)為背景減法任務(wù)設(shè)計(jì)的新穎視覺(jué)語(yǔ)言模型。受多模態(tài)跟蹤變壓器(Multimodal Tracking Transformer, MTTR)在目標(biāo)分割領(lǐng)域成功應(yīng)用的啟發(fā),我們認(rèn)識(shí)到其強(qiáng)大的時(shí)空特征學(xué)習(xí)和多模態(tài)信息融合能力,為背景減除任務(wù)提供了一種新的解決方案。與傳統(tǒng)的背景減除方法不同,本研究使用的模型通過(guò)理解視頻內(nèi)容和相關(guān)文本描述之間的關(guān)系,可以更準(zhǔn)確地識(shí)別和分割視頻序列中動(dòng)態(tài)前景對(duì)象,特別是在復(fù)雜場(chǎng)景和動(dòng)態(tài)背景下。模型集成了深度學(xué)習(xí)的最新進(jìn)展,訓(xùn)練了一個(gè)能夠理解視頻內(nèi)容和語(yǔ)言指令的視覺(jué)語(yǔ)言模型,實(shí)現(xiàn)了視頻幀中前景和背景的精確分割。實(shí)驗(yàn)結(jié)果表明,將該模型應(yīng)用于背景減除任務(wù)時(shí),與現(xiàn)有技術(shù)相比,不僅提高了分割精度,而且提高了對(duì)相機(jī)抖動(dòng)和動(dòng)態(tài)背景的適應(yīng)性。這項(xiàng)研究為視頻分析和處理領(lǐng)域提供了一個(gè)新的工具,展示了視覺(jué)語(yǔ)言模型在理解復(fù)雜視頻內(nèi)容方面的巨大潛力。

MTTR模型結(jié)合深度時(shí)空編碼和Transformer技術(shù),對(duì)視頻和文本的多模態(tài)數(shù)據(jù)進(jìn)行有效處理,其總體結(jié)構(gòu)如圖所示。



首先,該模型采用改進(jìn)版的Video Swin Transformer作為時(shí)空編碼器,從視頻序列中精確提取豐富的視覺(jué)特征。這種增強(qiáng)通過(guò)調(diào)整時(shí)間下采樣層來(lái)實(shí)現(xiàn),為每個(gè)視頻幀生成詳細(xì)的特征映射,使模型能夠捕獲動(dòng)態(tài)信息和復(fù)雜的細(xì)節(jié)。同時(shí),使用基于Transformer的文本編碼器RoBERTa從文本查詢(xún)中提取語(yǔ)言特征。這些特征被線(xiàn)性投影,以便與同一維度空間中的視頻特征對(duì)齊,以便后續(xù)集成。

特征提取完成后,MTTR模型使用多模態(tài)Transformer進(jìn)一步處理這些特征。通過(guò)其編碼器和解碼器結(jié)構(gòu),該Transformer實(shí)現(xiàn)了視頻和文本功能的深度集成,利用自關(guān)注機(jī)制來(lái)探索不同模式之間的關(guān)系,并為每個(gè)對(duì)象實(shí)例生成獨(dú)特的序列。在此過(guò)程中,視頻中的視覺(jué)信息和文本中的語(yǔ)言信息被有效融合,為后續(xù)的分割任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。

隨后,MTTR模型采用類(lèi)似于FPN的空間解碼器和動(dòng)態(tài)生成的條件卷積核對(duì)實(shí)例序列進(jìn)行空間解碼,為每個(gè)實(shí)例生成分割掩碼。這些動(dòng)態(tài)生成的核根據(jù)Transformer解碼器的輸出進(jìn)行調(diào)整,適應(yīng)不同實(shí)例的不同特征,以產(chǎn)生高質(zhì)量的分割結(jié)果。為了精確識(shí)別與文本查詢(xún)最匹配的序列,該模型采用基于成本的匹配策略,通過(guò)簡(jiǎn)單的線(xiàn)性層和匈牙利算法計(jì)算每個(gè)序列的關(guān)聯(lián)分?jǐn)?shù),準(zhǔn)確選擇目標(biāo)實(shí)例序列。

在訓(xùn)練過(guò)程中,MTTR模型利用匹配損失、Dice損失和Focal損失的組合,通過(guò)端到端訓(xùn)練方法優(yōu)化模型的性能。這種全面的損失函數(shù)設(shè)計(jì)不僅有利于模型學(xué)習(xí)基于文本描述的視頻對(duì)象分割,而且省去了額外復(fù)雜的后處理步驟,顯著提高了RVOS任務(wù)的效率和準(zhǔn)確性。通過(guò)這些創(chuàng)新設(shè)計(jì),MTTR模型不僅在處理多模態(tài)任務(wù)方面表現(xiàn)出卓越的性能,而且顯著簡(jiǎn)化了處理工作流程,展示了深度學(xué)習(xí)技術(shù)在視頻理解和自然語(yǔ)言處理領(lǐng)域的巨大潛力。

主要內(nèi)容:

為了有效地將多模態(tài)跟蹤變壓器(Multimodal Tracking Transformer, MTTR)模型應(yīng)用于背景減除任務(wù),本研究對(duì)數(shù)據(jù)集格式進(jìn)行了具體調(diào)整。這些調(diào)整主要體現(xiàn)在標(biāo)簽的處理和額外文本信息的添加上。

在對(duì)象分割任務(wù)中,數(shù)據(jù)集通常包含多個(gè)實(shí)例值,以區(qū)分圖像中的單個(gè)對(duì)象實(shí)例。然而,背景減法的目標(biāo)是識(shí)別與背景相反的所有動(dòng)態(tài)前景物體。因此,在背景減法任務(wù)中,我們簡(jiǎn)化了數(shù)據(jù)集標(biāo)簽,使用單個(gè)標(biāo)簽值來(lái)表示前景。具體來(lái)說(shuō),所有前景對(duì)象的像素標(biāo)簽統(tǒng)一設(shè)置為255,而背景對(duì)象的像素標(biāo)簽設(shè)置為0。這種標(biāo)簽處理方法簡(jiǎn)化了模型的學(xué)習(xí)目標(biāo),使其能夠?qū)W⒂趯⒁曨l幀中的前景與背景分開(kāi)。

更重要的是,如圖所示,為了充分利用MTTR模型的多模態(tài)特性,我們手動(dòng)為每個(gè)視頻添加視頻標(biāo)題,作為文本查詢(xún)的一部分。這些視頻標(biāo)題簡(jiǎn)潔地描述了視頻內(nèi)容,如“汽車(chē)在高速公路上行駛”。通過(guò)將這些描述性文本信息與視頻幀一起輸入到模型中,MTTR可以更準(zhǔn)確地理解視頻內(nèi)容,從而提高區(qū)分背景和前景的精度。視頻標(biāo)題的加入不僅豐富了數(shù)據(jù)集的信息內(nèi)容,而且為模型提供了額外的語(yǔ)義層,有助于提高背景減除任務(wù)的性能。



綜上所述,對(duì)數(shù)據(jù)集格式的調(diào)整和視頻標(biāo)題的增加為本研究的背景減除任務(wù)提供了必要的數(shù)據(jù)支持,使MTTR模型能夠更有效地處理視頻數(shù)據(jù),實(shí)現(xiàn)更準(zhǔn)確的前景分割。

實(shí)驗(yàn)結(jié)果及分析:

本研究的實(shí)驗(yàn)基于CDNet-2014數(shù)據(jù)集,重點(diǎn)評(píng)估提出的視覺(jué)語(yǔ)言模型在處理背景減法任務(wù)方面的性能。CDNet-2014數(shù)據(jù)集包括11個(gè)類(lèi)別的53個(gè)自然場(chǎng)景視頻,涵蓋了一系列具有挑戰(zhàn)性的場(chǎng)景。為了深入分析模型的性能,特別選擇了三個(gè)具有代表性的場(chǎng)景類(lèi)別進(jìn)行實(shí)驗(yàn):“基線(xiàn)”、“動(dòng)態(tài)背景”和“相機(jī)抖動(dòng)”。這些類(lèi)別包括背景減法中的常見(jiàn)挑戰(zhàn),例如處理靜態(tài)和動(dòng)態(tài)背景以及由攝像機(jī)運(yùn)動(dòng)引起的視頻幀變化。

在“基線(xiàn)”、“動(dòng)態(tài)背景”和“相機(jī)抖動(dòng)”類(lèi)別中,模型表現(xiàn)出了卓越的性能。在基線(xiàn)類(lèi)別中,它獲得了0.9743的顯著F-Measure,證明了它在區(qū)分動(dòng)態(tài)前景元素和靜態(tài)背景方面的卓越能力。在動(dòng)態(tài)背景的挑戰(zhàn)下,該模型的F-Measure值達(dá)到0.9757,強(qiáng)調(diào)了它在識(shí)別移動(dòng)的前景和背景元素方面的能力。即使在相機(jī)抖動(dòng)引入的擾動(dòng)下,模型仍保持其魯棒性,F(xiàn)-Measure為0.9793。總的來(lái)說(shuō),這些結(jié)果在0.9764的總體F測(cè)量值中達(dá)到最高,肯定了模型在不同和具有挑戰(zhàn)性的場(chǎng)景中的一致性和可靠性。

在背景減法模型的對(duì)比評(píng)價(jià)中,提出的MTTR模型在所有測(cè)試場(chǎng)景中都表現(xiàn)出優(yōu)異的性能。具體而言,在基線(xiàn)類(lèi)別中,MTTR的F-Measure值為0.9762,高于DeepBS、IUTIS-5、PAWCS和SuBSENSE。對(duì)于有相機(jī)抖動(dòng)的場(chǎng)景,MTTR模型的F-Measure為0.9757,再次優(yōu)于其他模型,在動(dòng)態(tài)背景條件下,它也表現(xiàn)出類(lèi)似的優(yōu)勢(shì),F(xiàn)-Measure為0.9793??偟膩?lái)說(shuō),MTTR模型的平均F-Measure值為0.9771,突出了其在處理復(fù)雜視頻背景方面的魯棒性和有效性,肯定了其在背景減法領(lǐng)域的先進(jìn)地位。





結(jié)論:

這項(xiàng)研究首次將傳統(tǒng)上與對(duì)象分割相關(guān)的多模態(tài)跟蹤變壓器(MTTR)模型應(yīng)用于視頻背景減法領(lǐng)域,展示了視覺(jué)語(yǔ)言模型的擴(kuò)展能力。MTTR對(duì)背景減法挑戰(zhàn)的適應(yīng)在CDNet-2014數(shù)據(jù)集的三個(gè)不同且具有挑戰(zhàn)性的視頻類(lèi)別中展示了典型的性能,特別是在基線(xiàn)、相機(jī)抖動(dòng)和動(dòng)態(tài)背景場(chǎng)景中。

在MTTR框架內(nèi)將深度學(xué)習(xí)與自然語(yǔ)言處理相結(jié)合,顯著提高了模型從復(fù)雜背景中分割前景元素的熟練度。針對(duì)已建立的數(shù)據(jù)集進(jìn)行基準(zhǔn)測(cè)試的研究結(jié)果突出展示了MTTR模型的魯棒性和準(zhǔn)確性,超越了傳統(tǒng)方法,特別是在易受動(dòng)態(tài)變化和相機(jī)運(yùn)動(dòng)影響的環(huán)境中。

雖然MTTR模型已經(jīng)顯示出有希望的結(jié)果,但它在背景減法中的應(yīng)用仍處于起步階段,還有很大的潛力有待探索。未來(lái)的研究將受益于在CDNet-2014數(shù)據(jù)集中更廣泛的視頻類(lèi)別中測(cè)試MTTR模型,以充分確定其有效性和穩(wěn)健性。此外,將視覺(jué)語(yǔ)言模型的應(yīng)用擴(kuò)展到更廣泛的視頻分析任務(wù),如事件檢測(cè)和活動(dòng)識(shí)別,代表了一個(gè)重要的研究途徑,有望推進(jìn)當(dāng)前的技術(shù)水平。

綜上所述,將MTTR模型應(yīng)用于背景減除任務(wù)不僅提供了一種新的方法,而且為視頻分析領(lǐng)域提供了一個(gè)新的維度。預(yù)計(jì)未來(lái)的研究將繼續(xù)這一軌跡,進(jìn)一步推進(jìn)對(duì)視頻內(nèi)容在不同和具有挑戰(zhàn)性的背景下的理解和處理。

作者簡(jiǎn)介:

朱丹丹,博士,中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院副教授,碩士生導(dǎo)師。目前主要研究方向是強(qiáng)化學(xué)習(xí)和數(shù)據(jù)挖掘。

聯(lián)系方式:[email protected]