作者:程進1,2,胡寒棟1,2,3,江業帆1,2,張一博1,2,3,丁季時雨1,2,3
(1.航天科工集團智能科技研究院有限公司,北京 100144;2.航天防務智能系統與技術科研重點實驗室,北京 100144;3.中國航天科工集團第二研究院,北京 100854)
摘要:?隨著人工智能技術的發展,空域無人作戰正由“單平臺遙控”向“多平臺協同”轉變。多無人機協同作戰任務具有非完全信息、通信受限、高實時、強動態等特點,給協同決策生成帶來巨大挑戰。針對通信受限環境中的多無人機協同決策問題,提出一種基于動態層級網絡通信架構的通信強化學習協同策略,該策略能夠顯著減少無人機集群間的通信次數,同時準確傳遞其決策需要的信息,從而得到較優協同策略。針對多無人機協同圍捕的典型任務場景,基于OpenAI平臺對所提出的算法進行了仿真驗證。結果表明,與傳統強化學習算法相比,提出的通信強化學習策略可以顯著減少無人機間的通信次數,同時在一定程度上避免潛在的信息欺騙問題。完成任務需要的平均通信次數相比于傳統兩兩通信結構減少約 77%,為實現通信受限環境中的多無人機協同任務提供技術支撐。
1 引 言
隨著人工智能技術的發展,空域無人作戰正由“單平臺遙控”向“多平臺協同”轉變[1]。由于單個無人機的載荷能力與探測能力有限,因而難以完成復雜的作戰任務,無法滿足日益增長的智能化作戰需求。多無人機集群協同能夠突破單個無人機的能力限制,通過信息共享與統一決策有效提升無人機的總體作戰能力[2],從而實現多無人機集群自主協同搜索、協同圍捕、協同打擊等作戰任務。在多無人機協同作戰過程中,每架無人機作為一個智能體,共同構成多智能體系統。多智能體系統的目標是讓若干個單智能體通過相互協作實現復雜智能,使得在降低系統建模復雜性的同時,提高系統的魯棒性、可靠性、靈活性。
當前,多無人機在復雜環境下的不完全信息博弈決策問題已成為多無人機協同作戰場景下亟待解決的前沿熱點問題之一[3]。多無人機協同決策具有多智能體并存、多復雜任務、對抗實時性、動作持續性、信息不完全、搜索空間龐大等特點。近年來,以深度學習和強化學習為代表的人工智能技術取得了較大的突破,多智能體協同決策問題的解決方法逐漸從傳統的基于預編程規則的方法轉向以智能體自主強化學習為主的方法[4-5]。通過強化學習方法研究多無人機間的協同決策,能夠為解決未來軍事協同對抗問題提供新的有效途徑。
多智能體強化學習場景根據任務目標可分為完全合作型、完全競爭型、混合型[6]。其中,在完全合作型中,智能體一般無法觀測到環境中的所有狀態信息,且所有智能體需要合作實現共同目標;在完全競爭型中,智能體一般分為兩隊,且兩隊智能體具有零和獎勵函數,智能體一般考慮在最壞的情況下將對手盡力最小化,從而最大化自己的利益,經典算法有Minimax-Q等[7];在混合型中,智能體擁有各自獨立的獎勵函數且不受限制,常見方法主要有Nash Q-learning等[8]。近年來,多智能體強化學習主要聚焦于在部分可觀環境下的完全合作型場景。在該設置下,多智能體強化學習算法的主要研究方向包括緊急行為分析[9]、值分解[10]、聯合探索[11]等。
真實作戰場景電磁環境復雜、通信容量有限,難以滿足智能體海量節點實時全聯通的需求。對于無人機集群而言,通信受限問題已成為限制其協同決策發展的關鍵瓶頸之一。傳統強化學習算法無法有效處理通信受限環境中的協同決策需求。為此,一些學者提出了基于通信的多智能體強化學習算法。基于通信的多智能體強化學習算法主要解決多智能體系統中的部分可觀測問題,試圖使用顯式的通信信道實現信息的共享。Foerster等[12]最先在深度多智能體強化學習中引入通信學習,提出了RIAL和DIAL兩種使用深度網絡學習離散通信信息的方法。Sukhbaatar等[13]提出了CommNet,在智能體之間構建了一個具備傳輸連續信息能力的通信通道,確保環境中任何一個智能體都可以實時傳遞信息。IC3NET[14]使用可學習的閥函數控制智能體是否參與本次通信,減少了智能體間不必要的通信頻率。SchedNet[15]利用智能體根據自身觀測生成的動態重要性權重進行排序,只選取最大的K個智能體進行通信,利用先驗信息減少了通信次數。TarMAC[16]利用注意力機制計算智能體對其他智能體消息的權重,以此實現選擇性的通信。GA-Comm使用游戲提取法,即基于軟性注意力及硬性注意力提取智能體間的關系,結合雙向LSTM網絡實現更準確、高效的通信[17]。NDQ[17]通過限制信息熵、接收到的信息與動作信息,對信息質量進行優化,得到更加簡短、高效的通信信息。IS[18]使用預測網絡估計環境轉移概率,并將智能體未來運動軌跡編碼至通信信息中,實現智能體間的意圖分享。然而,上述方法在多無人機協同決策中存在信息欺騙問題。
鑒于此,本文針對通信受限環境中的多無人機協同決策問題,提出了一種基于動態層級網絡通信架構的通信強化學習協同策略。該策略能夠顯著減少無人機集群間的通信次數,同時準確傳遞其決策需要的信息,在一定程度上避免信息欺騙問題,從而得到較優協同策略。針對多無人機協同圍捕的典型場景,基于 OpenAI平臺對所提出的算法進行了仿真驗證。
2 多無人機通信強化學習協同策略架構
本文基于動態層級網絡設計多無人機強化學習協同策略,通過將多無人機系統建模為層級通信網絡,在消息中融合觀測及意圖信息,實現選擇性的觀測共享和單邊的意圖分享,提升無人機對全局狀態的信念并且實現更好的協作。在此基礎上,引入線性值分解網絡,將團隊獎勵分解為條件狀態-動作函數值,實現更為準確的效用分配。同時,結合內在獎勵的方法,設計基于策略不確定度的通信獎勵,實現對有向層級網絡的訓練。
多無人機通信強化學習協同策略的整體架構如圖1所示。將多無人機系統建模為動態可學習的有向層級網絡,該網絡被定義為包含了多組領導者-追隨者樹的森林。每棵樹可以表示為節點和有向邊的集合,其中N代表節點集合,E代表有向邊集合。每個節點代表了一個無人機,有向邊則描述了無人機間的領導者-追隨者關系。通過限制意圖僅能沿著有向邊單向流動,有向層級網絡保證了單邊的意圖分享,從而在一定程度上減少了信息傳遞過程中潛在的信息欺騙,并緩解了通信過程中的環境非穩態問題。
圖1 基于層級通信網絡的多無人機協同策略示意圖
Fig.1 Schematic diagram of multi-UAV cooperation strategy based on hierarchical communication network
在每個決策時間步,每個無人機收到各自的局部觀測信息后,經過觀測信息編碼器和依賴信息編碼器,將其轉化為觀測特征和依賴特征。每個無人機根據其觀測特征進行預決策,將預決策信息和依賴特征進行融合,利用融合特征計算無人機間的相關性,獲得帶權重的全連接圖。之后,基于最小生成樹算法的層級關系圖生成器將帶權重的全連接圖轉化為能夠表示無人機間領導者-追隨者的有向層級關系圖。根據生成的有向層級關系圖,無人機根據其領導的決策信息依次做出決策,并將其意圖信息分享給追隨無人機,直至所有的無人機均做出決策。多無人機執行聯合動作并與環境交互,獲得團隊獎勵,并將狀態、動作、下時刻狀態、獎勵、預決策等信息存入經驗回放池。
訓練時,將多無人機系統視為一個整體,使用單無人機的訓練方法優化聯合動作價值函數及層級通信網絡。聯合動作價值函數是由各個無人機的觀測動作值函數加和計算得到的,因此不僅可以適應動態變化的無人機數目及異構的多智能體類型,保證算法的可擴展性,同時由于所有無人機使用團隊獎勵,可以更好地實現多無人機的協作任務。具體的,根據每個無人機的狀態-動作函數值及其執行動作,利用線性值分解網絡計算團隊狀態-動作值,使用 Q學習模塊完成智能體策略的更新。另一方面,根據無人機策略在通信前后的不確定性變化及環境獎勵,設計內在通信獎勵,基于深度確定性梯度下降方法,實現對動態有向層級關系圖的訓練。算法1展示了基于層級通信網絡的多無人機強化學習算法的完整流程。該算法能夠解決由于可能的信息欺騙所導致的錯誤合作,同時單邊通信在一定程度上減少了通信次數,提升了基于通信的多無人機強化學習算法的性能。
3 基于動態層級通信的多無人機協同策略
3.1 層級通信網絡與單邊意圖分享
根據無人機智能體間的相互依賴關系,可以使用基于最小生成樹的有向圖生成算法,實現全連接圖向層級通信網絡的轉變。首先,基于依賴矩陣 d
w計算每個節點的流入流出值,即無人機的相對依賴程度
式中,u,v是除去 i以外的其他節點。由于我們采用了軟性注意力機制計算依賴矩陣,因此實際上
根據無人機相對依賴程度,我們可以選出更適合作為領導者的無人機:相對依賴程度越大,其越能影響其他無人機的決策,而越不受到其他無人機的影響。
基于最小生成樹算法,本文提出了層級通信網絡生成算法。首先,根據無人機的相對依賴程度ρi選出最大值對應的無人機作為根節點,將其建立在有向圖中。之后,找到在 w d中擁有最大的邊權重wij的無人機i,其中 i ∈ N r = ( N /Nnew),j∈N n ew。判斷wij是否為從無人機i流出的最大邊。如果是,則將其建立在有向圖中,作為無人機 j的子節點;如果不是,則拒絕該節點的加入,再從未使用的無人機集合Nr中,根據無人機的相對依賴程度ρi選出最大的值對應的無人機作為根節點。重復上述操作,直至所有的無人機均被建立在有向圖中,并生成最終的層級通信網絡。同時,如果無人機的組數,即層級有向圖的樹木棵樹是給定的,我們可以使用Top(k)方法直接選取n個根節點,且不使用拒絕機制,從而簡化樹的建立過程。級通信網絡生成具體步驟如算法 2所示。在實際執行過程中,我們可以根據實際通信所需時間計算出層級網絡中樹的最大深度d,將超過此深度的節點進行剪枝,將其掛在前d層的父節點上,以此實現帶有深度約束的層級通信網絡,滿足通信時間需求。
在通信過程中,無人機收到由其他無人機的觀測信息h-i和意圖信息u-i組成的通信信息mi。之后,無人機通過一個自注意力模型,將來自其他無人機的觀測信息進行選擇性接收,獲得融合觀測信息
式中, w isj表示自注意力模型中無人機i對無人機j發送的信息占融合觀測信息的權重。同時,無人機根據其在層級關系圖中的層數,獲取其領導者的決策信息
式中,L(i)表示無人機i的領導人,即其在層級通信網絡中的所有祖先節點。最終,無人機根據自身觀測信息及聚合信息 a ggri =[c i , xi ]做出最終決策
最終,無人機i將其意圖信息發送給其追隨者,并在當前決策步中保持不變。循環此過程,直至所有的無人機都完成了通信任務。
3.2 條件狀態-行為值分解及策略網絡訓練
在線性值分解網絡 VDN和單調值分解網絡QMIX等SOTA效用分配算法中,由于相對過度泛化問題,其在部分任務的性能極差。在博弈論中,相對過度泛化問題是指當聯合行動空間中的次優納什均衡優于最優納什均衡。在該狀態下,次優均衡中每個智能體的行動與合作智能體的任意行動組成的聯合動作均為最優動作,從而導致無人機學習及協作的失敗。
解決該問題的一個思路是引入無人機的策略信息,即使用無人機的動作信息減少環境的非穩態性,利用一種集中式的訓練方式來尋找正確的全局最優點。在我們的方法中,由于使用了層級有向的意圖分享,追隨者能夠獲得其領導者的策略信息,進而生成條件狀態-行為函數值。于是,基于條件狀態-行為函數值的線性分解網絡
可以減少由于其他無人機變化策略帶來的環境非穩態問題。
層級通信網絡的結構在策略生成過程中也起到了至關重要的作用。層級通信網絡控制了無人機的領導者,即影響了其接收到的其他無人機策略信息。同時,層級通信網絡的生成過程中失去了訓練所需要的梯度,但具有梯度的輸入依賴矩陣 w d 和層級通信網絡 w f之間是多對一的關系。因此,我們將層級通信網絡 w f視為一個偏置項,同時利用集中式訓練的優勢,結合環境的真實狀態信息,以此提高訓練的穩定性。于是,策略的更新式可以寫作
式中,?表示聯合狀態-動作目標值,V表示層級關系網絡的值函數,B表示批采樣得到的軌跡總數,b表示批采樣中的軌跡標識,T表示當前軌跡的時間步總數,t表示強化學習時間步,γ表示獎勵折扣因子,表示t時刻環境狀態, w bt表示智能體間的有向圖關系,θa表示智能體網絡參數,θv表示層級關系網絡的值函數網絡參數,θa′表示智能體網絡目標參數,θv′表示層級關系網絡的值函數目標網絡參數。
3.3 內在獎勵及層級通信網絡訓練
為生成動態變化的層級通信有向圖,我們需要使得其成為可訓練的網絡。然而,在層級通信網絡的生成過程中,我們使用的最小生成樹方法無法實現梯度反傳。但是,如果給定了一個依賴矩陣 w d ,層級通信網絡 w f是確定的。因此,我們可以將 w f視為經過了動作選擇器的動作信號,而其對應的策略網絡輸出為 w d = a =φ(o)。該策略網絡將無人機觀測信息映射到依賴特征上。于是,層級通信網絡被建模為了一個強化學習過程,可以通過深度確定性梯度下降的方式進行更新。
在學習過程中,我們需要獲得能夠指導更新大小和幅度的獎勵信號。基于內在獎勵方法,我們為層級通信網絡的訓練設計了通信獎勵。一方面,無人機在接收到其他無人機的意圖信息后,其策略的不確定性應當減小。我們使用無人機狀態-行為函數值最大的前兩項的方差作為無人機對自身決策信心的評價標準。因此,內在獎勵可以表示為通信前后所有無人機決策信心的變化
式中,α為調節內在獎勵和外在建立的權重因子。依賴矩陣的更新式為
另一方面,層級通信網絡的最終目標仍然是最大化無人機決策的累計回報。于是,我們可以最終獲得通信獎勵
式中,Q表示層級關系網絡的狀態-動作值,y表示層級關系網絡的狀態-動作目標值,cθ表示Critic網絡的參數,cθ′表示Critic目標網絡的參數,dθ表示Actor網絡的參數。
4 多無人機協同場景設計及仿真驗證
4.1 多無人機協同任務場景設計
本文針對多無人機協同圍捕場景,采用捕食者-被捕食者強化學習訓練平臺對本文算法進行仿真驗證。捕食者-被捕食者仿真環境為一個部分可觀測多智能體協作任務環境,環境共初始化 8個捕食者(智能體)和8個被捕食者(獵物),分別模擬我方和敵方的無人機群。在該場景中,每個智能體的動作空間中有“上移”“下移”“左移”“右移”“靜止”和“打擊”6個動作,當選擇移動的目標位置被其他智能體或獵物占領時所選的動作會被判定為無效動作,當相鄰網格中沒有獵物時不可以選擇“打擊”動作。環境中獵物隨機選取一個方向移動,當4個相鄰網格都被其他智能體占領時保持靜止。每個智能體的觀測信息為以其所在位置為中心的5×5網格。兩個相鄰的智能體同時進行“打擊”動作,視為打擊成功,并獲得獎勵值10,一個智能體單獨執行“打擊”動作則會受到懲罰p(p≤0)。實驗目標為:通過8個捕食者無人機協同決策,完成對8個被捕食者無人機的全部打擊。當所有被捕食者無人機都被成功“打擊”或達到200個時間步,則判定任務結束。基于上述場景,分別對本文算法和當前主流通信強化學習算法進行仿真驗證,對比不同算法間的決策效果以及完成任務所需要的平均通信次數。
4.2 仿真結果
圖2給出了本文算法與基于通信的SOTA多無人機強化學習算法在捕食者-被捕食者平臺上的性能對比結果。在仿真測試中,分別取懲罰值p= -1、-1.25、-1.5和-2。可以看到,CommNet、TarMAC和GA-Comm隨著懲罰值p的減小而逐漸變得不穩定,甚至在p= -2時完全無法完成任務。CommNet在 p≤-1.25后就開始無法完成任務,說明冗余的通信信息可能會損害多智能體協作的性能。由于 NDQ使用互信息減小了環境的非穩態問題,因此具有學習到正確策略的潛力。雖然IS也進行了意圖共享,但是其中的軟性注意力機制并無法讓其獲得準確的智能體間關系,從而間接證明了任務中可能存在信息欺騙,且該問題會導致算法的失效。作為對比,我們提出的算法在不同的環境設置下均能很快學習到正確的策略并保持穩定,證明了基于層級通信的網絡結構的有效性。
圖2 不同基于通信的多智能體強化學習算法的性能對比
Fig.2 Performance comparison of different communication based multi-agent reinforcement learning algorithms
進一步地,將本文提出的算法與其他預先設定好的通信拓撲結構或關系生成算法進行對比。設置任務場景的懲罰值p= -2.25,結果如圖3所示。可以看到,現有的關系生成算法均不能快速地學會最優策略,而預設的拓撲結構Line則能夠快速地學習到正確的策略。與之相比,本文算法在算法前期上升較慢,這是由于算法需要學習合適的層級通信網絡,這一過程較為復雜和耗時。但是,在算法后期的收斂狀態,能夠看到本文學習算法性能優于預設拓撲結構。同時,本文算法可以實現稀疏通信,比預設的Line型拓撲結構運行效率更高,能夠高效、準確地完成任務。
圖3 不同通信拓撲結構對意圖分享的影響Fig.3 Influence of different communication topologies on intention sharing
此外,在仿真環境下分別進行 20輪獨立試驗,得到完成任務過程中本文提出的層級通信結構和傳統兩兩通信結構下的平均通信次數,如表1所示。結果表明,本文的動態層級通信結構的平均通信次數為 5.8次,傳統兩兩通信結構的平均通信次數為25.9次,本文提出的基于動態層級通信結構的多無人機協同策略完成任務需要的平均通信次數減少約77%。
表1 不同通信拓撲結構下的平均通信次數Table 1 Average communication times under different communication topologies
5 結束語
本文針對通信受限環境中的多無人機協同決策問題,提出一種基于動態層級網絡通信架構的通信強化學習協同策略。通過將多無人機系統建模為層級通信網絡,提升無人機對全局狀態的信念;在此基礎上引入線性值分解網絡,實現更為準確的效用分配。針對多無人機協同圍捕場景的仿真結果表明,與傳統強化學習算法相比,本文提出的通信強化學習策略可以顯著減少無人機間的通信次數,同時在一定程度上避免潛在的信息欺騙問題,完成任務需要的平均通信次數相比于傳統兩兩通信結構減少約77%。本文所提出的基于動態層級網絡通信架構的多無人機通信強化學習協同算法可為通信受限環境中的多無人機協同任務提供技術支撐,未來將考慮把該算法遷移到物理環境以驗證其在真實場景中的有效性,并進一步探索其在體系化作戰決策方面的應用可能。另一方面,本文尚未對通信拒止環境下的多無人機協同策略進行探討,未來將考慮開展基于隱式信息共享的協同方法研究,進一步探索通信拒止環境下的多無人機協同策略與方法。
?
?
編輯:黃飛
?
評論
查看更多