中文題目:帶變量標(biāo)識(shí)符的多變量長(zhǎng)程魯棒預(yù)測(cè)模型
論文題目:An Enhanced Multivariate long-term Time Series Robust Forecasting Model with Distinguishable Variable Identifier
錄用期刊/會(huì)議:中國(guó)自動(dòng)化大會(huì) (CAA A類(lèi)會(huì)議)
錄用時(shí)間:2024.9.19
作者列表:
1) 何洋洋 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 控制工程 研22級(jí)
2) 劉建偉 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 自動(dòng)化系 教師
摘要:
最近,在多變量長(zhǎng)期序列預(yù)測(cè)領(lǐng)域,線(xiàn)性模型受益于通道獨(dú)立性(CI)的訓(xùn)練策略,表現(xiàn)優(yōu)于之前大多數(shù)基于transformer的模型,并質(zhì)疑注意力機(jī)制捕捉時(shí)間依賴(lài)性的能力。為了重新獲得Transformer的主導(dǎo)地位,我們進(jìn)一步改進(jìn)了基于塊的Transformer模型,但也有文章指出基于CI設(shè)計(jì)的模型存在空間不可區(qū)分的缺陷。為了解決這個(gè)問(wèn)題,我們專(zhuān)門(mén)為T(mén)ransformer模型設(shè)計(jì)了變量標(biāo)識(shí)符(VD),賦予它變量區(qū)分能力。而且,我們學(xué)習(xí)到的變量標(biāo)識(shí)符還可以大致描述變量之間的相似度。此外,為了提高模型抵抗數(shù)據(jù)噪聲干擾的能力,防止模型發(fā)生過(guò)擬合噪聲,采用了一種新的損失函數(shù),融合了MSE和MAE損失函數(shù)的優(yōu)點(diǎn)。為了進(jìn)一步提高模型的性能,同時(shí)不增加額外的計(jì)算量,受計(jì)算機(jī)視覺(jué)的啟發(fā),設(shè)計(jì)了一種多尺度CNN結(jié)構(gòu)。該模型優(yōu)于最近提出的線(xiàn)性模型和基于transformer的SOTA模型,在廣泛使用的開(kāi)源數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,與最先進(jìn)的方法相比,該模型的性能最高提高了4.4%。
背景與動(dòng)機(jī):
時(shí)間序列預(yù)測(cè)作為常見(jiàn)的時(shí)間序列任務(wù)之一,包括但不限于時(shí)間序列的分類(lèi)、預(yù)測(cè)、填充和異常檢測(cè),廣泛應(yīng)用于能源、農(nóng)業(yè)、工業(yè)、金融等領(lǐng)域,旨在通過(guò)過(guò)去的歷史序列預(yù)測(cè)一個(gè)時(shí)間步(單步預(yù)測(cè))或多個(gè)時(shí)間步(多步預(yù)測(cè))的未來(lái)序列值。時(shí)間序列預(yù)測(cè)有著悠久的歷史。近年來(lái),由于深度學(xué)習(xí)方法無(wú)需人工特征的端到端訓(xùn)練優(yōu)勢(shì),基于深度學(xué)習(xí)的時(shí)間序列預(yù)測(cè)方法逐漸成為主流?;谏疃葘W(xué)習(xí)的長(zhǎng)期時(shí)間序列預(yù)測(cè)方法主要包括RNN(如LSTM、GRU)、CNN、Transformer等。
盡管模型結(jié)構(gòu)越來(lái)越復(fù)雜,但令人驚訝的是,單層線(xiàn)性模型在預(yù)測(cè)精度方面優(yōu)于幾乎所有更復(fù)雜的基于transformer的模型,并且具有極簡(jiǎn)的模型結(jié)構(gòu),這使其成為一個(gè)強(qiáng)大的基線(xiàn)模型。這讓人們開(kāi)始思考時(shí)間序列預(yù)測(cè)是否需要復(fù)雜的Transformer模型,這也啟發(fā)人們?cè)O(shè)計(jì)更多基于mlp的模型來(lái)代替Transformer,如TS-mixer,這是谷歌的MLP-Mixer模型在時(shí)間序列預(yù)測(cè)中的一個(gè)成功應(yīng)用。最近,由Nie等人提出的基于transformer的模型PatchTST對(duì)時(shí)間序列進(jìn)行單獨(dú)的patch(類(lèi)似于計(jì)算機(jī)視覺(jué)中的Vit),并使用實(shí)例歸一化方法來(lái)大大提高預(yù)測(cè)結(jié)果,以應(yīng)對(duì)zheng等人提出的問(wèn)題。Lin等人也利用了補(bǔ)丁和多步并行預(yù)測(cè)技術(shù)來(lái)獲得良好的性能。PatchTST雖然效果較好,但對(duì)不同信道的時(shí)間序列采用信道獨(dú)立(CI)和參數(shù)共享的策略,導(dǎo)致存在空間不可區(qū)分的缺陷。解決這個(gè)問(wèn)題的一個(gè)自然的想法是分別對(duì)不同的特征變量序列進(jìn)行建模,但這將導(dǎo)致O(C)的計(jì)算復(fù)雜度,其中C代表整個(gè)輸入的時(shí)間序列(通道)的數(shù)量,我們使用的數(shù)據(jù)集最大有321個(gè)特征,這不僅消耗大量的資源,而且實(shí)驗(yàn)效果有時(shí)比單個(gè)模型整體的效果更差。Shao等人提出通過(guò)附加身份信息很好地解決了這個(gè)問(wèn)題。然而,該模型過(guò)于簡(jiǎn)單,擬合能力不足,且嵌入操作會(huì)導(dǎo)致隱藏層維數(shù)成倍增加,并可能耗費(fèi)不必要的計(jì)算資源。在本文中,以類(lèi)似于位置嵌入的方式將變量身份信息融入到嵌入(VD)表示中可以緩解這一問(wèn)題,盡管Chen等人對(duì)線(xiàn)性模型的時(shí)間序列預(yù)測(cè)能力進(jìn)行了理論分析,表明線(xiàn)性模型在捕獲線(xiàn)性依賴(lài)方面仍然具有明顯的優(yōu)勢(shì),但我們將通過(guò)實(shí)驗(yàn)表明,VD信息的直接添加對(duì)基于transformer的模型比線(xiàn)性模型更友好。此外,雖然Shao等人也將時(shí)間不可區(qū)分性作為模型性能的關(guān)鍵瓶頸,但對(duì)于長(zhǎng)期時(shí)間序列,歷史窗口越長(zhǎng),發(fā)生該問(wèn)題的可能性越小,因此本文不考慮該問(wèn)題。
主要內(nèi)容:
針對(duì)多變量時(shí)間序列預(yù)測(cè)中的空間不可區(qū)分問(wèn)題,設(shè)計(jì)了一種新的VD (learnable channel embedding)嵌入方法。為了提高模型的魯棒性,采用Huber損失函數(shù)來(lái)克服MSE損失函數(shù)對(duì)異常值過(guò)于敏感的缺點(diǎn)。 本文嘗試設(shè)計(jì)一種多尺度CNN變體來(lái)提取多尺度特征。 本文提供了一個(gè)關(guān)于補(bǔ)丁嵌入的新視角和解釋。實(shí)驗(yàn)表明,該設(shè)計(jì)顯著提高了模型性能,在71%的實(shí)驗(yàn)中達(dá)到了最先進(jìn)的性能。

圖1 模型結(jié)構(gòu)
該模型包括一個(gè)抵抗分布偏移的REVIN、一個(gè)多尺度CNN、一個(gè)特別設(shè)計(jì)的變量標(biāo)識(shí)符,以及一個(gè)具有殘差注意力分?jǐn)?shù)的增強(qiáng)transformer。
結(jié)論:
在本文中,為了突破以往模型的性能瓶頸,創(chuàng)新性地設(shè)計(jì)了變量標(biāo)識(shí)符,使模型能夠有效區(qū)分不同變量。提出了一種CNN風(fēng)格的嵌入,并從趨勢(shì)-季節(jié)分解提供了一個(gè)新的分析視角來(lái)解釋為什么多尺度CNN是有效的。此外,我們重新設(shè)計(jì)了損失函數(shù),以減輕噪聲數(shù)據(jù)的影響。實(shí)驗(yàn)結(jié)果表明,該模型在大部分實(shí)驗(yàn)中取得了較好的效果。
作者簡(jiǎn)介:
劉建偉,教師,學(xué)者。