中文題目:基于強(qiáng)化學(xué)習(xí)的骨干輔助實(shí)時(shí)PD-NOMA網(wǎng)絡(luò)中數(shù)據(jù)基站的部署策略
論文題目:Data Sinks Deployment for Backbone-Assisted Real-Time PD-NOMA Networks based on Reinforcement Learning
錄用期刊/會(huì)議:The 21st IEEE International Conference on Ubiquitous Intelligence and Computing (CCF C)
作者列表:
1) 呂振杰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩 22
2) 徐朝農(nóng) 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師
3) 魏嘉辰 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè) 碩 22
摘要:
實(shí)時(shí)性能是骨干網(wǎng)輔助功率域非正交多址接入無(wú)線(xiàn)網(wǎng)絡(luò)(BA-PDNOMAWNs)在工業(yè)物聯(lián)網(wǎng)應(yīng)用中的關(guān)鍵指標(biāo)之一。由于數(shù)據(jù)基站與無(wú)線(xiàn)傳感器之間的地理位置關(guān)系對(duì)實(shí)時(shí)性能有極大影響,因此在無(wú)線(xiàn)傳感器固定的場(chǎng)景下,合理設(shè)置數(shù)據(jù)基站的位置是一種實(shí)現(xiàn)高實(shí)時(shí)性能的有效方法。本文將骨干網(wǎng)輔助PD-NOMA無(wú)線(xiàn)網(wǎng)絡(luò)中尋找最佳數(shù)據(jù)基站位置的問(wèn)題建模為一個(gè)最小化上行傳輸時(shí)延的優(yōu)化問(wèn)題。為了找到一種低復(fù)雜度的算法,我們首先將該問(wèn)題形式化為馬爾可夫決策過(guò)程,并提出了一種基于經(jīng)典多智能體深度確定性策略梯度的強(qiáng)化學(xué)習(xí)算法,其中獎(jiǎng)勵(lì)函數(shù)經(jīng)過(guò)精心設(shè)計(jì),以加速收斂。實(shí)驗(yàn)結(jié)果表明,相較于單個(gè)數(shù)據(jù)基站,多個(gè)數(shù)據(jù)基站在BA-PDNOMAWNs中可以將上行傳輸時(shí)延減少2.2倍。此外,與經(jīng)典的模擬退火優(yōu)化算法及其他部署算法(如CC和GP算法)相比,所提出的算法可以將上行傳輸時(shí)延減少2倍,從而實(shí)現(xiàn)更優(yōu)的實(shí)時(shí)性能。
主要內(nèi)容:
1、問(wèn)題建模
為了更清晰地描述問(wèn)題,我們給出了“可行解碼序列”的定義,對(duì)于一個(gè)擁有m個(gè)數(shù)據(jù)基站的BA-PDNOMAWN網(wǎng)絡(luò),我們需要找到m個(gè)可行的位置 (X1,Y1),(X2,Y2),…,(Xm,Ym) 來(lái)最小化幀長(zhǎng)度。因此,該問(wèn)題可以表述如下。
其中Ne表示一個(gè)可解碼用戶(hù)序列。
2、算法設(shè)計(jì)
為了解決上面的問(wèn)題,首先我們將問(wèn)題轉(zhuǎn)化為一個(gè)馬爾可夫過(guò)程,并對(duì)其中的獎(jiǎng)勵(lì)策略進(jìn)行了詳細(xì)設(shè)計(jì)。我們同時(shí)給出了“序列干擾度”和“序列全局干擾增量”的定義?;谏鲜鯞A-PDNOMAWNs的原則以及“可行解碼序列”的定義,首先順序選擇尚未被分配的所有可行UE。然后,計(jì)算該序列的全局干擾增量,選擇全局干擾增量值最小的UE,并將其分配到當(dāng)前時(shí)槽的下一階段。該過(guò)程將持續(xù)進(jìn)行,直到?jīng)]有UE可以分配到該時(shí)槽為止,從而完成該時(shí)槽的UE分配。此過(guò)程將在后續(xù)的時(shí)槽中重復(fù)進(jìn)行,直到所有UE都完成分配。從而可以計(jì)算出獎(jiǎng)勵(lì)值。
然后,我們提出了一種基于MADDPG的骨干網(wǎng)輔助多數(shù)據(jù)基站部署(BAMDSP)算法來(lái)解決這個(gè)問(wèn)題。
實(shí)驗(yàn)結(jié)果及分析:
我們還將所提出算法與模擬退火(SA)算法及現(xiàn)有的BA-PDNOMAWNs多數(shù)據(jù)基站部署算法如CC、GP進(jìn)行比較。在僅有一個(gè)數(shù)據(jù)基站的非骨干無(wú)線(xiàn)網(wǎng)絡(luò)中,我們的方法將上行幀長(zhǎng)度分別減少了2.2倍、1.22倍和1.33倍。在BA-PDNOMAWNs中,我們提出的方法甚至可以將接入時(shí)延減少2倍。

小結(jié):
本文探討了靈活部署數(shù)據(jù)基站對(duì)BA-PDNOMAWNs中接入時(shí)延性能的影響。本文提出的BAMDSP算法為提升實(shí)時(shí)性能提供了有效的解決方案。隨著NOMA技術(shù)的廣泛應(yīng)用以及骨干網(wǎng)連接數(shù)據(jù)基站所帶來(lái)的優(yōu)勢(shì),BA-PDNOMAWNs預(yù)計(jì)將在不久的將來(lái)成為一個(gè)重要的研究熱點(diǎn)。
作者簡(jiǎn)介:
徐朝農(nóng),中國(guó)石油大學(xué)(北京)人工智能學(xué)院教師,主要研究領(lǐng)域?yàn)檫吘壷悄堋⑶度胧较到y(tǒng)、無(wú)線(xiàn)網(wǎng)絡(luò)。