中文題目: GraphCKSA:基于CENN-KCQ重采樣與雙視角邊優(yōu)化的雙策略圖神經(jīng)網(wǎng)絡(luò)不平衡節(jié)點(diǎn)分類(lèi)方法
錄用期刊/會(huì)議:【Applied Intelligence】 (中科院大類(lèi)三區(qū))
原文DOI:https://doi.org/10.1007/s10489-025-06660-6
原文鏈接:https://link.springer.com/article/10.1007/s10489-025-06660-6
見(jiàn)刊時(shí)間:2025年6月18日
作者列表:
1) 張麗英 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 公共教學(xué)中心教師
2) 陳潞夢(mèng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩士 23
3) 鄒天博 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù) 碩士 23
4) 王智廣 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系教師
5) 鄭馨竺 中國(guó)石油大學(xué)(北京)經(jīng)濟(jì)管理學(xué)院 管理科學(xué)與工程系教師
文章簡(jiǎn)介:
近年來(lái),復(fù)雜的網(wǎng)絡(luò)或圖結(jié)構(gòu)在多種場(chǎng)景中廣泛應(yīng)用,例如交通網(wǎng)絡(luò)、引用網(wǎng)絡(luò)和社交網(wǎng)絡(luò)等。在現(xiàn)實(shí)世界中,節(jié)點(diǎn)的類(lèi)別分布往往存在顯著的不平衡性,識(shí)別少數(shù)類(lèi)節(jié)點(diǎn)對(duì)許多應(yīng)用場(chǎng)景至關(guān)重要。本文針對(duì)不平衡節(jié)點(diǎn)分類(lèi)問(wèn)題,提出了GraphCKSA模型,該模型創(chuàng)新性地設(shè)計(jì)了CENN-KCQ重采樣,解決過(guò)度壓縮問(wèn)題的同時(shí)減少多數(shù)類(lèi)節(jié)點(diǎn)中的噪聲樣本,并優(yōu)化了樣本選擇過(guò)程有效減少不平衡數(shù)據(jù)集中多數(shù)類(lèi)的噪聲樣本;結(jié)合KMeans聚類(lèi)和簇內(nèi)SMOTE過(guò)采樣,并通過(guò)Q-learning強(qiáng)化學(xué)習(xí)智能地確定最優(yōu)聚類(lèi)簇?cái)?shù)K,確保少數(shù)類(lèi)節(jié)點(diǎn)的高質(zhì)量過(guò)采樣;通過(guò)生成高質(zhì)量的平衡增強(qiáng)數(shù)據(jù)集和合理的邊連接,為節(jié)點(diǎn)分類(lèi)器提供了一個(gè)平衡增強(qiáng)圖。最終實(shí)現(xiàn)了顯著提升不平衡節(jié)點(diǎn)分類(lèi)任務(wù)的性能。
摘要:
圖節(jié)點(diǎn)類(lèi)別分布通常存在顯著的不平衡性,使得模型難以有效捕捉少數(shù)類(lèi)節(jié)點(diǎn)的特征,導(dǎo)致分類(lèi)結(jié)果偏向于多數(shù)類(lèi)。因此,本文提出了一種全新的圖重采樣框架GraphCKSA,旨在通過(guò) CENN-KCQ 重采樣和雙視角邊優(yōu)化策略來(lái)解決不平衡節(jié)點(diǎn)分類(lèi)問(wèn)題。GraphCKSA創(chuàng)新性地將CENN欠采樣和KCQ-SMOTE過(guò)采樣相結(jié)合,構(gòu)建了高質(zhì)量的平衡增強(qiáng)數(shù)據(jù)集,并通過(guò)合理的邊連接策略,顯著提升了圖神經(jīng)網(wǎng)絡(luò)在不平衡節(jié)點(diǎn)分類(lèi)任務(wù)中的表現(xiàn)。在Cora、Citeseer和PubMed三個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,GraphCKSA均顯著優(yōu)于對(duì)比模型。此外,通過(guò)消融實(shí)驗(yàn)、過(guò)采樣規(guī)模、不平衡比率和超參數(shù)分析,進(jìn)一步驗(yàn)證了GraphCKSA的有效性,展現(xiàn)出其在不平衡節(jié)點(diǎn)分類(lèi)任務(wù)中的顯著性能提升。
背景與動(dòng)機(jī):
在現(xiàn)實(shí)世界中,節(jié)點(diǎn)的類(lèi)別分布往往存在顯著的不平衡性,即多數(shù)類(lèi)節(jié)點(diǎn)的數(shù)量遠(yuǎn)大于少數(shù)類(lèi)節(jié)點(diǎn)。然而,識(shí)別少數(shù)類(lèi)節(jié)點(diǎn)對(duì)許多應(yīng)用場(chǎng)景至關(guān)重要。在處理圖節(jié)點(diǎn)分類(lèi)任務(wù)中的不平衡數(shù)據(jù)集時(shí),直接用原始數(shù)據(jù)訓(xùn)練GNN分類(lèi)器可能難以有效捕捉少數(shù)類(lèi)節(jié)點(diǎn)的特征,導(dǎo)致分類(lèi)結(jié)果偏向于多數(shù)類(lèi),忽視少數(shù)類(lèi)的識(shí)別。針對(duì)這一問(wèn)題,本文提出了一種全新的圖重采樣框架GraphCKSA。
設(shè)計(jì)與實(shí)現(xiàn):
GraphCKSA模型由四個(gè)模塊組成:(i)基于GraphSage的特征提取器,用于提取節(jié)點(diǎn)的特征表示;(ii)重采樣節(jié)點(diǎn)生成器,包括CENN欠采樣和KCQ-SMOTE過(guò)采樣兩個(gè)部分,用于去除多數(shù)類(lèi)噪聲樣本和生成少數(shù)類(lèi)節(jié)點(diǎn),構(gòu)建一個(gè)高質(zhì)量的平衡增強(qiáng)數(shù)據(jù)集;(iii)邊生成器,從局部和全局雙重優(yōu)化邊連接,形成一個(gè)平衡增強(qiáng)圖;(iv)基于GNN的節(jié)點(diǎn)分類(lèi)器,基于平衡增強(qiáng)圖執(zhí)行節(jié)點(diǎn)分類(lèi)。本文提出的GraphCKSA模型結(jié)構(gòu)如圖1所示。
圖1 GraphCKSA模型框架
實(shí)驗(yàn)結(jié)果與分析:
為了驗(yàn)證GraphCKSA模型的有效性,將GraphCKSA與不平衡網(wǎng)絡(luò)嵌入方法的代表性方法及最先進(jìn)的方法(Origin、Over-sampling、Re-weight、SMOTE、Embed-SMOTE、DR-GCN、GraphSMOTE、GraphENS、GraphSR)進(jìn)行比較。
首先,在三個(gè)數(shù)據(jù)集上比較了GraphCKSA與基線(xiàn)方法在不平衡節(jié)點(diǎn)分類(lèi)任務(wù)上的表現(xiàn)。對(duì)比實(shí)驗(yàn)結(jié)果如下表1。這些結(jié)果驗(yàn)證了GraphCKSA的有效性,顯著提高了圖神經(jīng)網(wǎng)絡(luò)中不平衡節(jié)點(diǎn)分類(lèi)任務(wù)的性能。
其次,分析了不同模型在不同過(guò)采樣規(guī)模、不平衡比率下的性能,如下圖2、圖3。通過(guò)實(shí)驗(yàn)得到過(guò)采樣規(guī)模在0.8到1.0之間更有利于不平衡節(jié)點(diǎn)分類(lèi)的性能提升。當(dāng)不平衡程度更為極端時(shí),GraphCKSA所取得的改進(jìn)更為顯著。
最后,分析了不同超參數(shù)的敏感性,如下圖4。由于兩種規(guī)模的損失差異,超參數(shù)在1 × 10?6和4 × 10?6之間的效果更好。
結(jié)論:
GraphCKSA通過(guò)CENN欠采樣和KCQ-SMOTE過(guò)采樣平衡數(shù)據(jù)集來(lái)有效解決欠采樣中過(guò)度壓縮及多數(shù)類(lèi)噪聲樣本問(wèn)題的同時(shí)提升過(guò)采樣少數(shù)類(lèi)節(jié)點(diǎn)的質(zhì)量,并通過(guò)Q-learning算法智能確定最佳聚類(lèi)簇?cái)?shù)K,有效捕捉少數(shù)類(lèi)節(jié)點(diǎn)的特征,構(gòu)建了一個(gè)高質(zhì)量的平衡增強(qiáng)數(shù)據(jù)集。從雙重視角優(yōu)化邊連接,形成一個(gè)平衡增強(qiáng)圖。實(shí)驗(yàn)驗(yàn)證了GraphCKSA在不平衡節(jié)點(diǎn)分類(lèi)任務(wù)中的有效性和優(yōu)越性。
作者簡(jiǎn)介:
張麗英,講師,博士,中國(guó)石油大學(xué)(北京)人工智能學(xué)院碩士生導(dǎo)師。主要研究方向:圖機(jī)器學(xué)習(xí)、油氣人工智能及應(yīng)用、時(shí)空數(shù)據(jù)挖掘等。
聯(lián)系方式:[email protected]