大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

基于圖卷積神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)分類(lèi)方法研究綜述

中文題目:基于圖卷積神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)分類(lèi)方法研究綜述

論文題目:基于圖卷積神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)分類(lèi)方法研究綜述

錄用期刊/會(huì)議:計(jì)算機(jī)科學(xué) (CCF中文B類(lèi))

原文DOI:10.11896/jsjkx.230600071

原文鏈接:http://www.Jsjkx.com

封面摘要:節(jié)點(diǎn)分類(lèi)任務(wù)是圖分析領(lǐng)域的關(guān)鍵研究主題,近年來(lái),隨著圖卷積網(wǎng)絡(luò)(GCN)的深入研究和廣泛應(yīng)用,GCN驅(qū)動(dòng)的節(jié)點(diǎn)分類(lèi)技術(shù)和應(yīng)用均實(shí)現(xiàn)了顯著進(jìn)展。本文綜述了基于GCN的節(jié)點(diǎn)分類(lèi)方法,從圖概念和任務(wù)定義入手,介紹常用數(shù)據(jù)集,探討譜域與空間域GCN,分析面臨的挑戰(zhàn)。進(jìn)一步,從模型與數(shù)據(jù)兩方面對(duì)當(dāng)前研究進(jìn)展進(jìn)行分類(lèi)總結(jié),最終展望未來(lái)研究方向。

作者列表

1) 張麗英 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 軟件工程系

2) 孫海航 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩21

3) 孫玉發(fā) 石油工業(yè)出版社有限公司

4) 石兵波 中國(guó)石油勘探開(kāi)發(fā)研究院

文章簡(jiǎn)介:

本文綜述了基于圖卷積網(wǎng)絡(luò)(GCN)的節(jié)點(diǎn)分類(lèi)研究,強(qiáng)調(diào)了其在多個(gè)研究領(lǐng)域中的基礎(chǔ)性和廣泛應(yīng)用價(jià)值。文章首先界定了節(jié)點(diǎn)分類(lèi)問(wèn)題和面臨的挑戰(zhàn),然后從模型和數(shù)據(jù)集兩方面探討了GCN在節(jié)點(diǎn)分類(lèi)中的挑戰(zhàn),在模型角度,包括梯度消失、過(guò)平滑、動(dòng)態(tài)圖處理、異構(gòu)圖適用性和大規(guī)模圖處理等問(wèn)題,在數(shù)據(jù)集角度,包括數(shù)據(jù)噪聲和數(shù)據(jù)不平衡問(wèn)題,本文從這些角度總結(jié)了基于GCN的節(jié)點(diǎn)分類(lèi)領(lǐng)域的研究成果,并展望了未來(lái)的研究方向,旨在為后續(xù)研究提供參考。

摘要:

節(jié)點(diǎn)分類(lèi)任務(wù)是圖分析領(lǐng)域的關(guān)鍵研究主題,近年來(lái),隨著圖卷積網(wǎng)絡(luò)(GCN)的深入研究和廣泛應(yīng)用,GCN驅(qū)動(dòng)的節(jié)點(diǎn)分類(lèi)技術(shù)和應(yīng)用均實(shí)現(xiàn)了顯著進(jìn)展。本文綜述了基于GCN的節(jié)點(diǎn)分類(lèi)方法,從圖概念和任務(wù)定義入手,介紹常用數(shù)據(jù)集,探討譜域與空間域GCN,分析面臨的挑戰(zhàn)。進(jìn)一步,從模型與數(shù)據(jù)兩方面對(duì)當(dāng)前研究進(jìn)展進(jìn)行分類(lèi)總結(jié),最終展望未來(lái)研究方向。

背景與動(dòng)機(jī):

圖數(shù)據(jù),由節(jié)點(diǎn)(實(shí)體)和邊(實(shí)體間關(guān)系)組成,是富含信息的數(shù)據(jù)結(jié)構(gòu),長(zhǎng)期以來(lái)成為研究焦點(diǎn)。圖數(shù)據(jù)研究涵蓋節(jié)點(diǎn)分類(lèi)、圖分類(lèi)、聚類(lèi)和鏈路預(yù)測(cè)等多個(gè)任務(wù),其中節(jié)點(diǎn)分類(lèi)特別重要,它涉及對(duì)未標(biāo)記節(jié)點(diǎn)的識(shí)別分類(lèi),廣泛應(yīng)用于社交網(wǎng)絡(luò)分析、垃圾郵件檢測(cè)和文獻(xiàn)分類(lèi)等。節(jié)點(diǎn)特征提取還可助力聚類(lèi)、鏈接預(yù)測(cè)和可視化任務(wù)。近年,受卷積神經(jīng)網(wǎng)絡(luò)(CNN)影響,圖卷積網(wǎng)絡(luò)(GCN)成為圖節(jié)點(diǎn)分類(lèi)的核心研究方法。本文綜述了基于GCN的節(jié)點(diǎn)分類(lèi)研究,探討現(xiàn)有研究、面臨的問(wèn)題和挑戰(zhàn),展望未來(lái)研究方向。

主要內(nèi)容:

GCN的優(yōu)點(diǎn)在于可以捕捉圖的全局信息,從而很好地表示節(jié)點(diǎn)的特征。但GCN在節(jié)點(diǎn)分類(lèi)任務(wù)上也面臨著一些挑戰(zhàn),下面分別從模型視角和數(shù)據(jù)集視角來(lái)綜述GCN在節(jié)點(diǎn)分類(lèi)中存在的問(wèn)題。

一、模型角度:

1. 增加深度可能導(dǎo)致梯度消失和過(guò)度平滑,限制性能。針對(duì)GCN增加深度會(huì)導(dǎo)致梯度消失和過(guò)平滑問(wèn)題的研究進(jìn)展,見(jiàn)表1。這些方法可概括為設(shè)計(jì)更優(yōu)深層網(wǎng)絡(luò)的方法和設(shè)計(jì)更優(yōu)提取特征的方法。

表1 梯度消失和過(guò)平滑問(wèn)題的研究

Table 1 Research on gradient disappearance and over smoothing

方法類(lèi)型

代表工作

基本思想

設(shè)計(jì)更優(yōu)深層網(wǎng)絡(luò)方法

DeepGCN[27],

AdaGCN[28]

設(shè)計(jì)更優(yōu)將前一層的特征連接到下一層的方法,提升梯度有效傳遞和網(wǎng)絡(luò)的表達(dá)能力。

設(shè)計(jì)更優(yōu)特征提取方法

Cluster-GCN[20],

N-GCN[29]

設(shè)計(jì)更優(yōu)特征提取方法,如:歸一化的方式與劃分子圖等。

2. GCN對(duì)動(dòng)態(tài)圖支持不夠。GCN的全局信息聚合和對(duì)特定圖結(jié)構(gòu)的依賴(lài)限制了其在動(dòng)態(tài)圖中的應(yīng)用。解決該問(wèn)題的研究進(jìn)展可概括為兩個(gè)方面,見(jiàn)表2。

表2 在動(dòng)態(tài)圖上的應(yīng)用研究

Table 2 Application Research on Dynamic Graph

方法類(lèi)型

代表工作

基本思想

引入時(shí)間維度

STGCN,

EvolveGCN

在GCN中加入時(shí)間維度,利用RNN或者LSTM等模型來(lái)處理時(shí)間信息。

引入注意力機(jī)制

DySAT,

TGAT

引入注意力機(jī)制來(lái)處理不同時(shí)間節(jié)點(diǎn)的信息。

3. 適用異構(gòu)圖的GCN研究有待深入。GCN在處理包含不同類(lèi)型節(jié)點(diǎn)和邊的異構(gòu)圖方面仍待深入研究。使用GCN的優(yōu)勢(shì)來(lái)解決異構(gòu)圖的節(jié)點(diǎn)分類(lèi)研究工作可概括為兩方面,見(jiàn)表3。

表3 在異構(gòu)圖上的應(yīng)用研究

Table 3 Application Research on Heterogeneous Graph

方法類(lèi)型

代表工作

基本思想

多層次信息融合方法

R-GCN,

HAN

將不同類(lèi)型節(jié)點(diǎn)間的關(guān)系進(jìn)行融合。

跨領(lǐng)域知識(shí)遷移方法

CD-GNN,

HGCC

采用跨領(lǐng)域知識(shí)遷移方法來(lái)增強(qiáng)異構(gòu)圖節(jié)點(diǎn)分類(lèi)性能。

4. GCN難以擴(kuò)展到現(xiàn)實(shí)應(yīng)用中的大型圖中。GCN的內(nèi)存需求限制了其在大型圖應(yīng)用中的擴(kuò)展。針對(duì)大型圖的節(jié)點(diǎn)分類(lèi)問(wèn)題,目前的研究工作可歸納為3類(lèi)方法,見(jiàn)表4。

表4 在大規(guī)模網(wǎng)絡(luò)上的應(yīng)用研究

Table 4 Application Research on Large Scale Network

方法類(lèi)型

代表工作

基本思想

引入鄰居采樣的方法

GraphSAGE[8]

對(duì)每個(gè)節(jié)點(diǎn)的鄰居采樣。

引入層采樣的方法

FastGCN[21],

ASGCN[19]

使用分層采樣,避免鄰域指數(shù)擴(kuò)散。

引入子圖采樣的方法

Cluster-GCN[20],

GraphSAINT[39]

通過(guò)子圖采樣方法加速訓(xùn)練過(guò)程。

二、數(shù)據(jù)集質(zhì)量方面:

1. 圖數(shù)據(jù)中的噪聲和缺失問(wèn)題影響GCN的性能。針對(duì)該問(wèn)題,基于GCN模型開(kāi)展的研究工作可概括為兩大方面,見(jiàn)表5。

表5 GCN針對(duì)數(shù)據(jù)集質(zhì)量問(wèn)題的改進(jìn)

Table 5 GCN improvement for dataset quality problems

方法類(lèi)型

代表工作

基本思想

融合圖濾波器的方法

SGC,SBGC,

BGCN

過(guò)濾掉高頻噪聲來(lái)平滑圖上節(jié)點(diǎn)的特征。

引入對(duì)抗學(xué)習(xí)的方法

AT-GCN,

RGCN

通過(guò)對(duì)抗學(xué)習(xí)使模型更具魯棒性,能處理對(duì)抗性攻擊和誤差數(shù)據(jù)。

2. 高度不平衡的圖數(shù)據(jù)對(duì)節(jié)點(diǎn)分類(lèi)構(gòu)成挑戰(zhàn)。已有研究可總結(jié)為3方面,見(jiàn)表6。

表6 在不平衡數(shù)據(jù)集上的應(yīng)用

Table 6 Application on Unbalanced Data Set

方法類(lèi)型

代表工作

基本思想

數(shù)據(jù)級(jí)方法

GraphSMOTE,

GraphMixup,Imgagn, GraphENS

使用過(guò)采樣或下采樣技術(shù)使數(shù)據(jù)類(lèi)別分布更加平衡。

算法級(jí)方法

DR-GCN,

GNN-INCM,

Boosting-GNN

修改模型的底層學(xué)習(xí)或決策過(guò)程以處理類(lèi)不平衡問(wèn)題。

混合方法

DPGNN,

GNNCL

將數(shù)據(jù)級(jí)和算法級(jí)方法結(jié)合起來(lái)。

結(jié)論:

節(jié)點(diǎn)分類(lèi)問(wèn)題不僅是很多研究領(lǐng)域的基礎(chǔ)問(wèn)題, 而且有著廣泛的應(yīng)用, 具有重要的研究?jī)r(jià)值??偟膩?lái)說(shuō), 本文對(duì)近年來(lái)基于 GCN 的節(jié)點(diǎn)分類(lèi)領(lǐng)域的研究進(jìn)行了綜述, 總結(jié)了已有方法以及未來(lái)可研究的方向, 希望能為進(jìn)一步的研究提供一定的參考價(jià)值。

未來(lái)基于GCN的節(jié)點(diǎn)分類(lèi)研究方向包括但不限于以下方面:

1. 改進(jìn)深層GCN架構(gòu):開(kāi)發(fā)新型卷積核、優(yōu)化子圖劃分和利用外部信息以解決梯度消失和過(guò)平滑問(wèn)題。

2. 動(dòng)態(tài)圖多任務(wù)學(xué)習(xí):設(shè)計(jì)GCN多任務(wù)學(xué)習(xí)框架,優(yōu)化節(jié)點(diǎn)分類(lèi)和邊預(yù)測(cè)等任務(wù)的聯(lián)合學(xué)習(xí)。

3. 異構(gòu)圖跨域集成:研究跨域鏈接對(duì)節(jié)點(diǎn)分類(lèi)的影響,提高GCN模型的跨域數(shù)據(jù)集成與分類(lèi)能力。

4. 大規(guī)模圖處理:開(kāi)發(fā)并行算法和有效的采樣技術(shù),提高大型圖上GCN模型的訓(xùn)練效率和GPU利用率。

5. 解決數(shù)據(jù)的噪聲問(wèn)題:設(shè)計(jì)結(jié)構(gòu)優(yōu)化的模型,結(jié)合噪聲處理技術(shù),提升GCN對(duì)數(shù)據(jù)集噪聲的抵抗能力。

6. 解決數(shù)據(jù)不平衡問(wèn)題:采用數(shù)據(jù)級(jí)、算法級(jí)和混合級(jí)方法,從不同角度提高少數(shù)類(lèi)節(jié)點(diǎn)的分類(lèi)準(zhǔn)確性。

這些方向旨在提高GCN在節(jié)點(diǎn)分類(lèi)任務(wù)中的性能,解決現(xiàn)有模型面臨的挑戰(zhàn),以及擴(kuò)展GCN在更多領(lǐng)域的應(yīng)用潛力。

作者簡(jiǎn)介:

張麗英,講師

中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院碩士生導(dǎo)師。主要研究方向:機(jī)器學(xué)習(xí)、時(shí)空數(shù)據(jù)挖掘。

聯(lián)系方式:[email protected]