中文題目:基于隨機(jī)丟棄特征選擇構(gòu)建集成分類(lèi)器
論文題目:Constructing Ensemble Classifier Based on dropout Feature Selection
錄用期刊/會(huì)議:CCDC2025 (CAA A類(lèi)會(huì)議)
錄用時(shí)間:2025.1.2
作者列表:
1)宋宇 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師
2)任正平 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 研18級(jí)
3)代思怡 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制科學(xué)與工程 研23級(jí)
4)劉建偉 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師
摘要:
1)我們引入了一種結(jié)合LDA的基于丟棄的特征選擇方法來(lái)提高預(yù)測(cè)模型的泛化性能和穩(wěn)定性。這種方法以一定的概率隨機(jī)丟棄特征,防止特征之間的共同適應(yīng),并與原始數(shù)據(jù)相比顯著降低特征維數(shù)。然后,選擇的特征被用于模型學(xué)習(xí)和預(yù)測(cè),從而導(dǎo)致更高的準(zhǔn)確率和降低過(guò)擬合的風(fēng)險(xiǎn)。
2)我們證明了隨機(jī)選擇特征子集的丟失集成學(xué)習(xí)算法擅長(zhǎng)處理噪聲和過(guò)擬合問(wèn)題。該算法在原始和有噪標(biāo)簽樣本集上都表現(xiàn)出較高的精度和穩(wěn)定的預(yù)測(cè)性能,特別是當(dāng)樣本大小相對(duì)于特征維數(shù)增加時(shí)。
3)我們將基于丟失的集成學(xué)習(xí)算法應(yīng)用于以高維數(shù)、高樣本噪聲和高標(biāo)簽噪聲為特征的學(xué)習(xí)環(huán)境,在這些環(huán)境中傳統(tǒng)方法難以勝任。我們的方法在預(yù)測(cè)性能和抗噪聲魯棒性方面提供了明顯的優(yōu)勢(shì),使其成為復(fù)雜和噪聲數(shù)據(jù)集中機(jī)器學(xué)習(xí)的有價(jià)值的工具。
背景與動(dòng)機(jī):
集成學(xué)習(xí)是一種通過(guò)組合多個(gè)模型來(lái)提高模型泛化性能的有效方法。 dropout方法利用同一樣本集的不同特征子集學(xué)習(xí)一系列子模型,根據(jù)驗(yàn)證數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確率對(duì)特征子集進(jìn)行排序,選擇準(zhǔn)確率最高的前幾個(gè)模型組成集成分類(lèi)器,使用集成分類(lèi)器預(yù)測(cè)測(cè)試集。
LDA分類(lèi)器的目標(biāo)函數(shù)為:

假設(shè):
圖1 特征選擇策略
結(jié)論:
當(dāng)特征維數(shù)減少時(shí),樣本大小增加,在一定程度上,模型的過(guò)擬合也減少了。由于dropout方法傳遞隨機(jī)選擇的特征子集,因此dropout集成學(xué)習(xí)算法也能夠處理噪聲和過(guò)擬合問(wèn)題。這也使得dropout集成學(xué)習(xí)算法在原始樣本集和帶有噪聲標(biāo)簽的樣本集上具有更高的準(zhǔn)確率和穩(wěn)定的預(yù)測(cè)性能。當(dāng)樣本數(shù)和特征維數(shù)相對(duì)較小時(shí),dropout集成學(xué)習(xí)算法的優(yōu)勢(shì)明顯。 實(shí)驗(yàn)表明,使用dropout特征選擇dLDAEC算法可以大大降低特征選擇的維數(shù),模型預(yù)測(cè)的準(zhǔn)確率比不使用LDA dropout非集成學(xué)習(xí)有明顯提高。
注意到特征選擇dLDAEC算法也有不適用情況。由于dropout方法特征的隨機(jī)選擇特性,當(dāng)特征維數(shù)較小時(shí),丟棄一些特征會(huì)使模型預(yù)測(cè)性能下降,這時(shí),dropout LDA集成分類(lèi)器和no dropout LDA集成分類(lèi)器兩類(lèi)算法在預(yù)測(cè)性能上沒(méi)有明顯優(yōu)勢(shì)。
基于特征選擇的dropout LDA集成分類(lèi)器適用于高維、高樣本噪聲和高標(biāo)簽噪聲的學(xué)習(xí)環(huán)境。
作者簡(jiǎn)介:
劉建偉,教師。