大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

數(shù)字孿生輔助強(qiáng)化學(xué)習(xí)的燃?xì)庹緢?chǎng)巡檢任務(wù)分配算法

論文題目數(shù)字孿生輔助強(qiáng)化學(xué)習(xí)的燃?xì)庹緢?chǎng)巡檢任務(wù)分配算法

錄用期刊電子信息學(xué)報(bào)(CCF中文C類(lèi))

作者列表

1 連遠(yuǎn)鋒 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 智能科學(xué)與技術(shù)系教師

2 田   天 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)技術(shù)專(zhuān)業(yè) 22

3 陳曉禾 中國(guó)石油大學(xué)(北京)人工智能學(xué)院 計(jì)算機(jī)系教師

4 董紹華 中國(guó)石油大學(xué)(北京)安全與海洋工程學(xué)院 安全工程系教師

摘要: 

針對(duì)燃?xì)庹緢?chǎng)機(jī)器人智能巡檢過(guò)程中由于突發(fā)任務(wù)導(dǎo)致的巡檢效率下降、任務(wù)延遲和能耗增加問(wèn)題,該文提出基于數(shù)字孿生輔助強(qiáng)化學(xué)習(xí)的燃?xì)庹緢?chǎng)巡檢任務(wù)分配算法。首先基于多機(jī)器人、差異化任務(wù)的執(zhí)行狀況,建立面向能耗、任務(wù)延遲的多目標(biāo)聯(lián)合優(yōu)化巡檢任務(wù)分配模型;其次利用李雅普諾夫理論對(duì)時(shí)間-能耗耦合下的巡檢目標(biāo)進(jìn)行解耦,簡(jiǎn)化多目標(biāo)聯(lián)合優(yōu)化問(wèn)題;最后通過(guò)結(jié)合數(shù)字孿生技術(shù)和PPO(Proximal Policy Optimization)算法,對(duì)解耦后的優(yōu)化目標(biāo)進(jìn)行求解來(lái)構(gòu)建多機(jī)器人巡檢任務(wù)分配策略。仿真結(jié)果表明,與現(xiàn)有方法相比,所提方法具有較高的任務(wù)完成率,有效地提高了多機(jī)器人系統(tǒng)的巡檢效率。

背景與動(dòng)機(jī): 

當(dāng)前我國(guó)燃?xì)庹緢?chǎng)安全管控主要是采用人工巡檢與監(jiān)控技術(shù)相結(jié)合的方式,人工巡檢實(shí)時(shí)性差、巡檢效率低,難以發(fā)現(xiàn)站場(chǎng)微小泄漏,無(wú)法滿(mǎn)足智能化、無(wú)人化風(fēng)險(xiǎn)管控需求。使用機(jī)器人對(duì)燃?xì)庹緢?chǎng)中的液化裝置(LNG)、壓力容器、管匯等燃?xì)饣A(chǔ)設(shè)施進(jìn)行巡檢具有適應(yīng)性強(qiáng)、巡檢效率高、安全性好的優(yōu)勢(shì),對(duì)燃?xì)庹緢?chǎng)智能化管理具有重要意義。

設(shè)計(jì)與實(shí)現(xiàn): 

在任務(wù)延遲、能耗資源有限和差異化任務(wù)的多機(jī)器人燃?xì)庋矙z場(chǎng)景中,考慮到能耗與時(shí)間耦合以及模型在真實(shí)環(huán)境中的適應(yīng)性,本文研究了數(shù)字孿生輔助強(qiáng)化學(xué)習(xí)的燃?xì)庹緢?chǎng)巡檢任務(wù)分配,以解耦能耗時(shí)間相關(guān)性,提高數(shù)字孿生強(qiáng)化學(xué)習(xí)在實(shí)際環(huán)境中的應(yīng)用。具體工作總結(jié)如下:(1)構(gòu)建了一個(gè)面向能耗、延遲等多目標(biāo)的聯(lián)合優(yōu)化巡檢任務(wù)分配模型,考慮多機(jī)器人巡檢和差異化任務(wù)的執(zhí)行需求,提升了任務(wù)分配的效率和實(shí)用性。(2)利用李雅普諾夫理論對(duì)時(shí)間耦合的巡檢能耗約束進(jìn)行解耦,將原問(wèn)題轉(zhuǎn)化為最小化李雅普諾夫漂移加懲罰項(xiàng)的上界,簡(jiǎn)化了多目標(biāo)優(yōu)化問(wèn)題。(3)針對(duì)物理空間和虛擬空間時(shí)間步長(zhǎng)不同問(wèn)題,提出數(shù)字孿生輔助的PPO(Proximal Policy Optimization)算法,對(duì)解耦后的優(yōu)化問(wèn)題進(jìn)行求解,實(shí)現(xiàn)了多機(jī)器人巡檢任務(wù)的高效且穩(wěn)定分配。在動(dòng)態(tài)巡檢任務(wù)的燃?xì)庹緢?chǎng)環(huán)境中,探索近似最優(yōu)的任務(wù)分配方法以實(shí)現(xiàn)機(jī)器人能耗和任務(wù)延遲最小化。

image.png

1 整體框架結(jié)構(gòu)圖

實(shí)驗(yàn)結(jié)果及分析:

2展示了PSO, GA, ACO, DRL, DDQNDTPPO算法在任務(wù)分配中的路徑規(guī)劃結(jié)果??梢钥闯觯?/span>PSO算法雖然能夠較好地實(shí)現(xiàn)任務(wù)分配,但路線(xiàn)存在較多的交叉和繞行;GA算法通過(guò)遺傳操作提供了一定程度的路線(xiàn)優(yōu)化,但在復(fù)雜環(huán)境下仍有重疊現(xiàn)象;ACO算法表現(xiàn)出較好的路線(xiàn)穩(wěn)定性和較少的路徑交叉,但存在漏檢的情況;DRL算法在處理復(fù)雜場(chǎng)景時(shí)表現(xiàn)出較高的自主性,但仍存在路徑冗余;本文提出的算法相較于DDQN,機(jī)器人能夠高效避免路徑交叉與冗余,從而提升了任務(wù)完成的效率和穩(wěn)定性。

image.png 

2 機(jī)器人Pathfinding數(shù)據(jù)集巡檢路線(xiàn)

本文模型與其他模型的機(jī)器人燃?xì)庹緢?chǎng)巡檢路線(xiàn)如圖3所示。可以看出,PSOGA算法巡檢的目標(biāo)點(diǎn)較少,存在漏檢的問(wèn)題,任務(wù)資源平衡方面也存在不足;ACO算法能在一定程度上優(yōu)化任務(wù)分配,但在復(fù)雜環(huán)境下,尤其是任務(wù)資源要求較高時(shí),算法表現(xiàn)出較為明顯的局部最優(yōu)解,未能充分挖掘全局最優(yōu)解的潛力,因此任務(wù)分配存在不均衡的情況;DRL算法巡檢了更多的目標(biāo)點(diǎn),在處理動(dòng)態(tài)任務(wù)分配時(shí)較為有效,能夠根據(jù)環(huán)境的變化做出調(diào)整;本文提出的算法相較于DDQN算法,任務(wù)分配的精確度和資源均衡性方面表現(xiàn)優(yōu)異,能夠根據(jù)環(huán)境變化快速調(diào)整任務(wù)分配策略,減少資源浪費(fèi),并提高系統(tǒng)的整體效率。

image.png

3 機(jī)器人燃?xì)庹緢?chǎng)巡檢路線(xiàn)

結(jié)論:

本文提出了一種基于數(shù)字孿生輔助強(qiáng)化學(xué)習(xí)的巡檢任務(wù)分配算法。首先,構(gòu)建以最小化機(jī)器人能耗和任務(wù)時(shí)延的多目標(biāo)聯(lián)合優(yōu)化巡檢任務(wù)分配模型。其次,考慮到能耗和時(shí)間之間的耦合關(guān)系以及電池容量約束,利用李雅普諾夫優(yōu)化理論對(duì)目標(biāo)函數(shù)的約束條件進(jìn)行解耦,進(jìn)而簡(jiǎn)化了多目標(biāo)優(yōu)化問(wèn)題。最后結(jié)合數(shù)字孿生技術(shù)和PPO算法,將李雅普諾夫漂移及懲罰項(xiàng)作為獎(jiǎng)勵(lì)函數(shù),對(duì)解耦后的問(wèn)題進(jìn)行求解。仿真部分針對(duì)不同因素對(duì)巡檢效率進(jìn)行了討論,并驗(yàn)證了本文算法的有效性和擴(kuò)展性。未來(lái)的工作中將考慮將優(yōu)化算法與李雅普諾夫理論結(jié)合改進(jìn)多機(jī)器人任務(wù)分配算法。

作者簡(jiǎn)介:

連遠(yuǎn)鋒,教授。研究方向?yàn)閳D像處理與虛擬現(xiàn)實(shí)、機(jī)器視覺(jué)與機(jī)器人、深度學(xué)習(xí)與數(shù)字孿生。