中文題目:加權(quán)k最近鄰圖拉普拉斯矩陣分解的不平衡樣例選擇
論文題目:Imbalanced Instance Selection Based on Laplacian Matrix Decomposition with Weighted k Nearest Neighbor Graph
錄用期刊/會(huì)議:Neural Computing and Applications (中科院SCI 3區(qū),JCR Q2)
原文DOI:https://doi.org/10.1007/s00521-024-09676-0
原文鏈接:https://link.springer.com/article/10.1007/s00521-024-09676-0
錄用/見(jiàn)刊時(shí)間:2024.04.22
作者列表:
1)代 琪 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 控制科學(xué)與工程 博20
2)劉建偉 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院/人工智能學(xué)院 自動(dòng)化系 教師
3)王龍輝 華北理工大學(xué) 理學(xué)院
摘要:
數(shù)據(jù)是構(gòu)建機(jī)器學(xué)習(xí)模型的基本組成部分。線(xiàn)性可分的高質(zhì)量數(shù)據(jù)有利于構(gòu)建高效的分類(lèi)模型。但是,在現(xiàn)實(shí)世界中,采集的數(shù)據(jù)并不是高質(zhì)量的,他們的每個(gè)類(lèi)的樣本數(shù)量并非絕對(duì)一致。因此,在這些數(shù)據(jù)集上構(gòu)建的模型容易受到類(lèi)不平衡、類(lèi)重疊和噪聲等問(wèn)題的影響。傳統(tǒng)的樣本選擇算法主要是根據(jù)樣本之間的近似程度,判斷樣本是否存在冗余或重疊。因此,這些方法只關(guān)注了數(shù)據(jù)集的局部信息,忽略了樣本在數(shù)據(jù)集中的全局近似關(guān)系。在本文中,提出一種根據(jù)樣本在數(shù)據(jù)集中的全局關(guān)系的樣本選擇方法,稱(chēng)為加權(quán)近鄰圖拉普拉斯矩陣分解的樣本選擇方法(LMD-WNG)。首先,該方法嘗試使用加權(quán)k最近鄰圖構(gòu)建一個(gè)新的距離加權(quán)拉普拉斯矩陣。然后,使用矩陣分解方法分解距離加權(quán)拉普拉斯矩陣。最后,根據(jù)分解后的實(shí)矩陣的特征值選擇適合模型學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集,并在新的訓(xùn)練數(shù)據(jù)集上構(gòu)建分類(lèi)器。
背景與動(dòng)機(jī):
目前已經(jīng)提出了大量的處理類(lèi)不平衡問(wèn)題的預(yù)處理技術(shù)。部分研究者認(rèn)為,過(guò)采樣技術(shù)比欠采樣技術(shù)更有效。然而,我們認(rèn)為這樣的描述并不全面,并不是在所有數(shù)據(jù)集上,過(guò)采樣技術(shù)都是最優(yōu)的方法。不妨簡(jiǎn)單的思考一下,當(dāng)少數(shù)類(lèi)樣本過(guò)于稀疏且與多數(shù)類(lèi)樣本存在重疊時(shí),直接使用傳統(tǒng)的過(guò)采樣技術(shù),生成的人工樣本仍然與多數(shù)類(lèi)重疊,不利于傳統(tǒng)分類(lèi)器學(xué)習(xí)數(shù)據(jù)集的分類(lèi)邊界。除此之外,在實(shí)驗(yàn)室中使用過(guò)采樣可能會(huì)提高評(píng)價(jià)指標(biāo)的結(jié)果。在實(shí)際應(yīng)用領(lǐng)域中,生成的偽少數(shù)類(lèi)樣本很可能不能代表實(shí)際的樣本,導(dǎo)致分類(lèi)模型無(wú)法識(shí)別新的未知樣本。因此,我們認(rèn)為對(duì)于重采樣技術(shù)中的過(guò)采樣技術(shù)和欠采樣技術(shù),他們之間并非占有絕對(duì)的優(yōu)勢(shì),而是應(yīng)該針對(duì)不同的問(wèn)題共同發(fā)展。
拉普拉斯矩陣是圖論中的常用方法。我們嘗試將拉普拉斯矩陣的思想引入樣本選擇或欠采樣技術(shù)中,解決類(lèi)不平衡問(wèn)題。使用度量學(xué)習(xí)方法,構(gòu)建相似矩陣,利用正負(fù)慣性趨勢(shì)搜索數(shù)據(jù)集的全局相似度趨勢(shì),從而實(shí)現(xiàn)數(shù)據(jù)集的欠采樣。我們認(rèn)為在數(shù)據(jù)集中越相似的不同類(lèi)的樣本越容易成為數(shù)據(jù)集中的重疊樣本。
此外,k最近鄰圖的邊并沒(méi)有權(quán)重,當(dāng)生成拉普拉斯矩陣時(shí),我們直接將鄰接矩陣中對(duì)應(yīng)位置標(biāo)注為1。使用這樣的做法有一個(gè)潛在的假設(shè),即認(rèn)為與頂點(diǎn)連接的樣本的權(quán)重是相同的,這樣并不利于分辨近鄰圖中相鄰樣本點(diǎn)的距離遠(yuǎn)近。因此,我們使用距離度量的方式,計(jì)算出相鄰樣本之間的距離,將其作為k最近鄰圖中對(duì)應(yīng)邊的權(quán)重,并使用加權(quán)k最近鄰圖生成拉普拉斯矩陣。
設(shè)計(jì)與實(shí)現(xiàn):
提出的加權(quán)k最近鄰圖拉普拉斯矩陣分解的樣例選擇(LMD-WNG)流程圖如下所示。

主要內(nèi)容:
LMD-WNG是一種結(jié)合拉普拉斯矩陣和矩陣分解技術(shù)的樣本選擇方法,據(jù)我們所知,該方法是首次在類(lèi)不平衡問(wèn)題上結(jié)合拉普拉斯矩陣和矩陣分解技術(shù)的新方法。該方法分為四個(gè)階段:構(gòu)建k最近鄰圖、計(jì)算標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣、矩陣分解(Schur分解)和樣本選擇。
在第一階段中,我們使用k最近鄰方法搜索樣本空間并形成最近鄰圖。
第二階段則是根據(jù)k最近鄰圖計(jì)算鄰接矩陣和度矩陣,并計(jì)算k最近鄰圖的標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣。
Schur分解則是在第三階段進(jìn)行,這個(gè)階段主要是分解標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣,獲取標(biāo)準(zhǔn)加權(quán)拉普拉斯矩陣對(duì)應(yīng)的特征值。
第四階段,樣本選擇則是根據(jù)拉普拉斯矩陣中對(duì)應(yīng)位置的特征值的大小選擇多數(shù)類(lèi)中的樣本。最后,將選擇的多數(shù)類(lèi)樣本與訓(xùn)練集中的少數(shù)類(lèi)樣本合并,形成新的訓(xùn)練集。
實(shí)驗(yàn)結(jié)果及分析:
在30個(gè)不平衡數(shù)據(jù)集上進(jìn)行參數(shù)敏感實(shí)驗(yàn),并與其他先進(jìn)方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下所示。

(a)輕度不平衡

(b)中度不平衡

(c)高度不平衡
圖1 使用GBDT時(shí)的參數(shù)敏感性分析

(a)輕度不平衡

(b)中度不平衡

(c)高度不平衡
圖2 使用RF作為基分類(lèi)器時(shí)的參數(shù)敏感性分析

(a)輕度不平衡

(b)中度不平衡

(c)高度不平衡
圖3 使用SVM作為基分類(lèi)器時(shí)的參數(shù)敏感性分析
與先進(jìn)樣本選擇或數(shù)據(jù)增強(qiáng)方法的對(duì)比實(shí)驗(yàn)結(jié)果如下所示:
表1 使用AUC評(píng)估模型時(shí)的性能結(jié)果

表2 使用G-mean評(píng)估模型時(shí)的性能結(jié)果

結(jié)論:
樣本選擇算法是解決類(lèi)不平衡問(wèn)題的研究方法之一,需要根據(jù)數(shù)據(jù)集中的樣本信息,選擇信息量較大的樣本加入訓(xùn)練集。當(dāng)數(shù)據(jù)集中少數(shù)類(lèi)樣本數(shù)量較多時(shí),可以使用傳統(tǒng)的重采樣技術(shù)增強(qiáng)少數(shù)類(lèi)或刪除多數(shù)類(lèi),但是當(dāng)數(shù)據(jù)集中的少數(shù)類(lèi)樣本較少時(shí),需要篩選訓(xùn)練集中的多數(shù)類(lèi)樣本,從而提高模型的整體性能。對(duì)于高度不平衡數(shù)據(jù)集,LMD-WNG的性能更加穩(wěn)定,并不會(huì)受到類(lèi)不平衡問(wèn)題的影響。然而,LMD-WNG樣本選擇算法的性能將會(huì)隨著數(shù)據(jù)集不平衡比的增加而變得對(duì)超參數(shù)k更加敏感。因此,需要更高效的參數(shù)選擇方法確定超參數(shù)。LMD-WNG是首次將數(shù)據(jù)轉(zhuǎn)化為圖結(jié)構(gòu)并選擇樣本的算法。因此,在未來(lái)的工作中,可以將它與其他方法結(jié)合使用,并且能夠充分探索根據(jù)數(shù)據(jù)結(jié)構(gòu)選擇樣本。
通訊作者簡(jiǎn)介:
劉建偉,教師,學(xué)者。研究領(lǐng)域涉及在線(xiàn)學(xué)習(xí)(包括強(qiáng)化學(xué)習(xí),賭博機(jī)算法,持續(xù)學(xué)習(xí),長(zhǎng)尾學(xué)習(xí));圖像視頻顯著性目標(biāo)檢測(cè),解糾纏表示學(xué)習(xí),光場(chǎng)和神經(jīng)場(chǎng)模型,以及圖像視頻少樣本變化檢測(cè);自然語(yǔ)言理解中的知識(shí)補(bǔ)全,圖神經(jīng)網(wǎng)絡(luò);不平衡數(shù)據(jù)處理;霍克斯點(diǎn)過(guò)程故障預(yù)測(cè)與診斷;非線(xiàn)性預(yù)測(cè)與控制。 是兵器裝備工程學(xué)報(bào)第三屆編輯委員會(huì)委員。歷屆中國(guó)控制會(huì)議(CCC)和中國(guó)控制與決策會(huì)議(CCDC)的程序委員會(huì)委員。擔(dān)任過(guò)80多個(gè)國(guó)際會(huì)議的TPC。