美國陸軍面向未來多域作戰概念研發了一種高效的地面機器人學習模型,該模型提出基于強化學習的策略,可有效減少當前訓練強化學習策略的不可預測性,使自主智能體能夠推理并適應不斷變化的戰場條件。
強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞。強化學習技術具備解決復雜問題的能力,近年來在如圍棋、象棋和電子游戲等領域有較為長足的發展。美國陸軍將這種強化學習技術應用在地面機器人面臨著兩個巨大挑戰。首先是算法的限制。在強化學習中,策略梯度方法(Policy Gradient Methods)是連續空間可伸縮算法的基礎,但是現有技術無法支持更廣泛的決策目標,例如風險敏感性、安全約束、對先驗知識的探索和發散。其次就是數據量的問題。強化學習需要大量的樣本復雜性,而美國陸軍多域作戰概念和下一代戰斗車輛(NGCV)項目目前數據匱乏并不支持現有訓練機制。
在陸軍多域作戰概念和NGCV項目中應用強化學習,訓練機制必須提高連續空間中的樣本效率和可靠性,ARL通過將現有的策略搜索方案推廣到通用工具,取得了重要突破。研究人員為通用程序開發了新的策略搜索方案,并且還確定了其樣本復雜度。由此產生的策略搜索方案減少了獎勵積累的波動性,形成了對未知領域的有效探索和先驗的機制。值得注意的是,地面機器人獲取數據的成本很高。減少獎勵積累的波動性,確保以有效的方式探索未知領域,或者吸收以前的經驗,都將有助于打破強化學習中現行實踐的樣本效率壁壘。通過減少隨機抽樣的數量,可以實現策略優化。
這項研究為強化學習中的經典策略梯度定理做出了貢獻。裝備有強化學習功能的自主機器人將能夠協助戰士在未來戰場上進行偵察探索和風險評估。研究人員下一步計劃在強化學習中將更廣泛的決策目標納入多主體設置,并研究強化學習主體之間的交互設置如何在團隊之間產生協同和對抗性推理。
責任編輯:YYX
-
機器人
+關注
關注
211文章
28632瀏覽量
208005
發布評論請先 登錄
相關推薦
評論