大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

多尺度子群體交互關(guān)系下的群體行為識(shí)別方法

中文題目:多尺度子群體交互關(guān)系下的群體行為識(shí)別方法

論文題目Group Activity Recognition under Multi-scale Sub-group Interaction Relationships

錄用期刊/會(huì)議電子與信息學(xué)報(bào) (CCF中文C類(lèi))

原文DOIhttps://doi.org/10.11999/JEIT231304

原文鏈接:https://jeit.ac.cn/cn/article/doi/10.11999/JEIT231304

錄用/見(jiàn)刊時(shí)間:2024.5.11

作者列表

1) 朱麗萍 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)系教師

2) 吳祀霖 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院22

3) 陳曉禾 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)系教師

4) 李承陽(yáng) 北京大學(xué)計(jì)算機(jī)學(xué)院 計(jì)算機(jī)軟件與理論專(zhuān)業(yè) 博20

5) 朱凱杰 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院20

背景與動(dòng)機(jī):

群體行為識(shí)別是視頻理解領(lǐng)域中的關(guān)鍵科學(xué)問(wèn)題,在安防、預(yù)警、社會(huì)管理等領(lǐng)域發(fā)揮著重要作用。傳統(tǒng)的行為識(shí)別一般僅關(guān)注個(gè)別或少數(shù)人的信息,然而,群體行為識(shí)別面對(duì)的場(chǎng)景通常包含大量個(gè)體,呈現(xiàn)出復(fù)雜多樣的情境。具體來(lái)說(shuō),群體行為識(shí)別算法不僅需要準(zhǔn)確識(shí)別個(gè)體的行為,還需要將這些個(gè)體的信息集成,從而推斷整個(gè)群體的行為。

目前,群體行為識(shí)別領(lǐng)域面臨著兩個(gè)主要挑戰(zhàn):如何將多個(gè)個(gè)體劃分為子群體并建立層次結(jié)構(gòu),以及如何捕捉具有判別性的個(gè)人交互特征。對(duì)于第一個(gè)挑戰(zhàn),通常采用基于層次結(jié)構(gòu)的劃分方法,例如,層次關(guān)系網(wǎng)絡(luò)根據(jù)個(gè)體空間位置劃分多個(gè)不同尺度的子群體。對(duì)于第二個(gè)挑戰(zhàn),許多方法利用個(gè)體的外觀(guān)特征和空間位置來(lái)建模它們之間的關(guān)系,如關(guān)系圖方法利用點(diǎn)乘法來(lái)度量特征相似度。然而,過(guò)去的方法通常僅考慮了子群體之間的空間位置關(guān)系,忽略了行為的相似性和子群體的動(dòng)態(tài)變化。此外,對(duì)于交互關(guān)系的建模,以往的方法主要關(guān)注個(gè)體之間的關(guān)系,卻忽略了對(duì)子群體之間關(guān)系的深入研究。因此,如圖1所示,本文提出從動(dòng)態(tài)子群體的角度入手,以更好地建模子群體之間的交互關(guān)系,為群體活動(dòng)識(shí)別領(lǐng)域提供了新的解決方案。



1 考慮或不考慮子群體關(guān)系的群體行為識(shí)別效果對(duì)比圖

設(shè)計(jì)與實(shí)現(xiàn):

本文提出了一種名為多尺度子群體交互關(guān)系(MSIR)的群體行為識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)包含兩個(gè)關(guān)鍵模塊:子群體劃分模塊(SDM)和子群體交互特征提取模塊(SIFEM)。SDM通過(guò)融合空間位置和外觀(guān)特征來(lái)動(dòng)態(tài)地構(gòu)造語(yǔ)義上相似的子群體。SIFEM則使用關(guān)系鄰接矩陣來(lái)建模子群體間的交互關(guān)系,并引入關(guān)系注意力矩陣以篩選出判別性關(guān)系特征,從而提高識(shí)別的準(zhǔn)確性。整體框架圖如圖2所示。



2 MSIR的整體架構(gòu)

本文設(shè)計(jì)的子群體劃分模塊SDM旨在通過(guò)更好地捕捉個(gè)體的行為語(yǔ)義信息來(lái)優(yōu)化子群體的劃分。它首先使用多層感知器將個(gè)體的空間位置信息映射到特征維度,然后與外觀(guān)特征相加,得到每個(gè)個(gè)體的綜合特征。接著,通過(guò)計(jì)算這些特征之間的余弦相似度,動(dòng)態(tài)地規(guī)劃出子群體。通過(guò)調(diào)整參數(shù)k,可以構(gòu)建不同尺度的子群體,以捕捉更豐富的交互關(guān)系。此外,還設(shè)計(jì)了一種擴(kuò)展選擇策略,通過(guò)比較最相似的k個(gè)個(gè)體,形成更具表達(dá)力的群體行為特征。

SIFEM模塊旨在分析和捕捉子群體之間的交互關(guān)系。首先,使用幾何矩陣從子群體的空間位置信息中提取交互特征。這一過(guò)程利用了子群體之間的歐式距離,使得更接近的子群體具有更高的相關(guān)性。接著,通過(guò)關(guān)系注意力矩陣,考慮了子群體之間的特征相似性,以更全面地捕捉不同空間距離上的交互關(guān)系。這兩個(gè)矩陣的結(jié)合形成了關(guān)系鄰接矩陣RAM,其中采用了稀疏策略以防止模型過(guò)擬合。

在交互特征學(xué)習(xí)階段,采用了兩個(gè)圖卷積網(wǎng)絡(luò)(GCN)層來(lái)聚合特征,以獲得子群體的交互特征。第一層GCN根據(jù)RAM進(jìn)行推理,計(jì)算得到每個(gè)子群體的交互特征。具體地,對(duì)于每對(duì)子群體ab,計(jì)算其之間的RAM矩陣,并使用GCN層將子群體b的特征與RAM作為輸入,從而得到子群體a的交互特征。類(lèi)似地,使用相同的操作計(jì)算子群體b的交互特征。接著,為每個(gè)子群體定義鄰接信息矩陣A,以建立當(dāng)前個(gè)體與子群體中其他個(gè)體之間的連接關(guān)系。第二層GCN以第一層的輸出和鄰接信息矩陣A作為輸入,輸出最終的子群體交互特征。通過(guò)這一過(guò)程,得到了具有T×N×D維度的子群體交互特征,其中T代表時(shí)間步數(shù),N代表子群體數(shù)量,D代表特征維度。其中交互關(guān)系矩陣的實(shí)現(xiàn)細(xì)節(jié)如圖3所示。



3 交互關(guān)系矩陣融合處理過(guò)程

實(shí)驗(yàn)結(jié)果及分析:

在排球數(shù)據(jù)集和集體行為數(shù)據(jù)集上地表現(xiàn)如表1所示,MSIR能夠以較高的準(zhǔn)確率來(lái)完成群體行為識(shí)別任務(wù)。此外針對(duì)子群體劃分方法以及子群體尺度的消融實(shí)驗(yàn)分別如表2和表3所示,通過(guò)結(jié)果主要有以下四點(diǎn)觀(guān)察:

1.本文提出的MSIR方法在排球數(shù)據(jù)集上達(dá)到了95.2%的準(zhǔn)確率,在集體行為數(shù)據(jù)集上達(dá)到了96.4%的準(zhǔn)確率,均略高于SOTA方法。這是因?yàn)镸SIR充分利用了子群體級(jí)別信息,加強(qiáng)了對(duì)多尺度交互特征的學(xué)習(xí),而其他方法要么忽略子群體語(yǔ)義,要么在子群體劃分和推理上不夠精細(xì)。

2.表2的實(shí)驗(yàn)驗(yàn)證了子群體劃分模塊(SDM)的有效性,結(jié)果顯示其能顯著提高識(shí)別效果。相比擴(kuò)張選擇策略,SDM劃分的子群體因低相似度和低冗余度而表現(xiàn)更佳,最終選擇k個(gè)最相似的個(gè)體組成子群體。

3.表3的實(shí)驗(yàn)定量比較了不同尺度子群體對(duì)群體行為識(shí)別性能的影響,相比不使用子群體的模型,準(zhǔn)確率分別提升了4.4%和7%。這些結(jié)果證明了群體行為識(shí)別受益于多層次結(jié)構(gòu)中子群體交互信息的利用。

4.圖4的可視化效果可以看出,RAM能夠準(zhǔn)確地捕捉并學(xué)習(xí)子群體之間的關(guān)鍵交互信息。例如,在第三列中,擊球手和攔截者之間的關(guān)系具有較大的權(quán)重值,這種相互作用對(duì)于識(shí)別進(jìn)攻的群體行為非常重要。

1 排球測(cè)試數(shù)據(jù)集和集體行為測(cè)試數(shù)據(jù)集上不同方法的準(zhǔn)確率(%)比較

2 子群體劃分模塊的定向?qū)嶒?yàn)比較(%)


3 子群體尺度的定量實(shí)驗(yàn)比較(%)



4 一些視頻幀中RAM的可視化

結(jié)論:

本文提出一種新型基于多尺度子群體的多層次群體識(shí)別網(wǎng)絡(luò)框架MSIR。研究通過(guò)探索個(gè)體和子群體之間的交互關(guān)系,并結(jié)合關(guān)系圖推理,實(shí)現(xiàn)了個(gè)體行為和群體行為的同時(shí)分類(lèi)。該框架涵蓋了子群體分支和個(gè)體分支,用于提取子群體和個(gè)體之間的交互特征。在子群體分支中,本文設(shè)計(jì)了子群體劃分模塊,該模塊實(shí)現(xiàn)了一種符合人類(lèi)邏輯且具有較高可解釋性的子群體劃分方法。此外,還設(shè)計(jì)了一種關(guān)系鄰接矩陣,并將其應(yīng)用于子群體交互特征提取模塊,以表示子群體之間復(fù)雜潛在的交互關(guān)系。相對(duì)于其它研究結(jié)果,本方法在兩個(gè)公共數(shù)據(jù)集上都取得了較好的性能結(jié)果。同時(shí),在有限的顯存情況下,該算法表現(xiàn)出良好的群體行為泛化能力。

作者簡(jiǎn)介:

朱麗萍,博士。中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院計(jì)算機(jī)系副教授,碩士生導(dǎo)師。目前主要研究方向是大數(shù)據(jù)和數(shù)據(jù)挖掘方向,尤其關(guān)注深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)方向上的應(yīng)用,已發(fā)表論文多篇高水平論文。

聯(lián)系方式:[email protected]