您當前的位置:首頁 > 歷史

多智慧體強化學習路徑規劃

作者:由 銀河中的太陽系 發表于 歷史時間:2020-01-03

全域性靜態路徑規劃方法

:全域性靜態路徑規劃分為

位姿空間

表示和

路徑搜尋

演算法兩部分。位姿空間是與實際環境對應的、能夠被計算機處理的資料結構;路徑搜尋演算法則是應用於該資料結構的演算法。傳統的位姿空間表示方法在細節上有所不同,但均將實際環境劃分為可行區域和障礙物區域,並將可行區域看作各向同性,區域內的安全性、通行性一致。這會導致生成的路徑距障礙物過近。針對此缺陷,快速行進平方法將可行區域看作各向異性的,認為

某點的安全性和該點距障礙物的距離線性相關

,傾向於讓智慧體沿著最安全的區域行駛。但距障礙物越遠,路徑長度會相應增加。提出

可變快速行進平方法

認為某點的安全性和該點距障礙物的距離正相關,透過比例縮放、閾值處理、函式變換這三種方式改變可行區域的各向異性,使最終生成的路徑能夠在安全性和長度之間進行權衡。

區域性動態路徑規劃方法

:智慧體編隊在運動過程中可能遭遇動態障礙物,傳統的區域性動態路徑規劃方法均是透過感測器資訊對障礙物建模,並對全域性靜態路徑進行區域性修正,存在計算量大、實時性差、路徑規劃結構複雜等問題。針對此問題,提出

有限快速行進法

。對智慧體編隊中某個成員進行區域性動態路徑規劃時,將其它成員也看作動態障礙物,在每個動態障礙物的避碰領域內應用有限快速行進法,與全域性靜態路徑規劃中的安全地圖疊加,用於生成最佳化路徑。

全域性路徑規劃

快速行進法構建的

勢場

具有全域性最小值的特點,唯一的極小值點就是起始點,避免了局部最小值,保證了演算法的完整性。對快速行進法建立的勢場應用梯度下降法(Gradient Descent method),透過跟隨梯度的下降方向,即能找到最短的無障礙路徑。

用於最終求解最優路徑的

梯度下降法

,函式的梯度方向是函式值增加的最快方向,與之相反,負梯度方向是函式值減小的最快方向。於是可以將負梯度方向作為一維搜尋的方向,用於解決最佳化問題,這種方法因此被稱作梯度下降法。

快速行進法將可行區域看作各向同性,區域內的安全性、通行性一致。這使得生成的路徑距靜態障礙物過近。針對此缺陷,快速行進平方法將可行區域看作各向異性的,認為某點的安全性和該點距障礙物的距離線性相關,傾向於讓智慧體沿著最安全的區域行駛。但距障礙物越遠,路徑長度會相應增加。提出的可變快速行進平方法認為某點的安全性和該點距障礙物的距離正相關,透過比例縮放、閾值處理、函式變換這 3 種方式改變可行區域的各向異性,即位姿空間對應的速度圖,使最終生成的路徑能夠在安全性和路徑長度之間進行權衡。

2。 區域性路徑規劃

提出用於構建動態目標的

有限快速行進法

(Finite Fast Marching method)。有限快速行進法中介面只在一定區域內進行傳播。因為介面需要到達的區域面積大大減少,有限快速行進法的計算量也相應減少,而演算法原理及計算步驟並沒有改變,這意味著有限快速行進法的運算速度得到提升。這增強了演算法處理動態避碰問題的能力,因為處理動態障礙物需要演算法具有較高的運算速度。

從快速行進法的原理來看,介面傳播的時間只與距離有關,具體指的是源點和介面最終到達點之間的距離。快速行進法的計算時間和 R 成正比,有限快速行進法的計算時間和r 成正比,兩者之間的比值為 R > r。

3。 路徑規劃過程

採用的為領導者-跟隨者模型,使用的路徑規劃演算法為實時線上執行,以儘可能保持編隊結構的穩定。領導者的目標點是整個任務的目標點,並且是固定的,除非在行駛過程中任務發生變化。與領導者不同,跟隨者的目標點會根據編隊結構在每個控制週期重新規劃。基於領導者和跟隨者各自的目標點,快速行進法迴圈應用於每個編隊成員,以實時規劃出相應的無碰路徑。

在每個控制週期 t,均先對領導者智慧體進行路徑規劃。演算法首先根據任務需要及實際環境對位姿空間應用可變快速行進平方法,得到靜態環境地圖,並將其縮放至 0-1 範圍內。因為靜態環境在整個路徑規劃過程中不發生變化,故可以將其記為 Mstatic 並存儲起來,一次計算,多次使用。然後,根據動態障礙物、編隊中跟隨者智慧體的瞬時位置及速度,使用有限快速行進法對動態目標進行建模,得到動態環境地圖,並將其縮放至 0-1 範圍內。疊加靜態環境地圖和動態環境地圖後,得到最終的環境地圖,對其應用快速行進法和梯度下降法,即能得到領導者智慧體的最優路徑。

一旦確定了領導者智慧體的最優路徑,演算法則迴圈為跟隨者智慧體計算最優路徑。這一過程與計算領導者智慧體最優路徑的類似,但因為跟隨者智慧體的目標點在每個控制週期 t 都需要重新計算,可能出現目標點落入障礙物區域的情況,導致路徑規劃失敗,因此,採用線形比例縮放的方法將子目標點調整到新的合適位置,儘量降低對智慧體編隊整體表現的影響,這樣處理的好處是計算量小,演算法實時性高。

子目標點重新規劃演算法中的縮減因子 Rd Scalar 需根據無人艇的動力學特性而定,如果智慧體具有較強的機動性,則可以將Rd Scalar設定為如 0。1 這樣的較小值,以充分利用智慧體的機動性將距離最大限度的縮短。根據每個編隊成員子目標點,編隊路徑規劃為編隊中每個跟隨者智慧體計算最優軌跡。當所有跟隨者智慧體的軌跡均更新完成後,即標誌著當前規劃週期的結束。得到的軌跡會被傳遞至路徑執行層以控制編隊成員的行駛。這整個過程會持續進行直到領導者智慧體達到其最終的目標點。

標簽: 路徑  行進  障礙物  智慧  快速