色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 機(jī)器人運(yùn)動(dòng)規(guī)劃方法綜述(4)

          機(jī)器人運(yùn)動(dòng)規(guī)劃方法綜述(4)

          發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-05-20 來(lái)源:工程師 發(fā)布文章
          2.1.1 度量函數(shù)敏感性問(wèn)題

          針對(duì)RRT對(duì)度量函數(shù)的敏感性問(wèn)題,Resolution-Complete RRT(RC-RRT)利用Constraint Violation Function(CVF)描述每個(gè)頂點(diǎn)發(fā)生碰撞的概率,并通過(guò)記錄已成功應(yīng)用的動(dòng)作,在避免重復(fù)擴(kuò)展的同時(shí)可以尋找到更有價(jià)值的頂點(diǎn)。RRT-blossom選擇待擴(kuò)展節(jié)點(diǎn)的方式與RC-RRT類似,不同的是RRTblossom同時(shí)應(yīng)用所有可能的行為,并移除碰撞軌跡和回退軌跡。Reachability-Guided RRT(RG-RRT)的顯著特點(diǎn)是為采樣樹(shù)上各頂點(diǎn)計(jì)算離散可達(dá)集,通過(guò)位于可達(dá)集Voronoi區(qū)域內(nèi)的采樣點(diǎn)來(lái)引導(dǎo)搜索,從而在不需要特殊啟發(fā)式的情況下緩解了對(duì)距離度量的敏感性。但由于RG-RRT算法在狹窄通道環(huán)境中可能持續(xù)發(fā)生碰撞,而RC-RRT則可能偏向選擇那些有較小CVF和較大Voronoi 區(qū)域面積的無(wú)價(jià)值頂點(diǎn),因此促使Environmentally Guided RRT(EGRRT)算法將兩種策略合并。Path-Directed Subdivision Tree(PDST)用路徑段表示“采樣點(diǎn)”,并將“采樣點(diǎn)”按優(yōu)先擴(kuò)展順序排列,同時(shí)用狀態(tài)空間的非均勻細(xì)分來(lái)估計(jì)覆蓋率,從而避免了度量敏感問(wèn)題。GRIP(Greedy,Incre?mental,Path-directed)通過(guò)用簡(jiǎn)單度量代替路徑細(xì)分過(guò)程而進(jìn)一步改進(jìn)了PDST算法,并以此偏置采樣,加之DRRT重復(fù)使用先前信息的優(yōu)勢(shì),實(shí)現(xiàn)了未知環(huán)境中含微分約束的重規(guī)劃。另一種與PDST類似的方法是 KPIECE(Kinodynamic Planning by Interior-Exterior Cell Exploration),其用網(wǎng)格離散低維投影空間,并標(biāo)記為外胞腔和內(nèi)胞腔兩類。因?yàn)榍罢咻^好捕捉了采樣樹(shù)的邊界,故為實(shí)現(xiàn)更快的空間探索,文章以75%的概率選擇外胞腔進(jìn)行擴(kuò)展。其次算法也將更偏愛(ài)于覆蓋率較低、相鄰胞腔較少、擴(kuò)展次數(shù)較少等有利于采樣樹(shù)生長(zhǎng)的胞腔。實(shí)驗(yàn)結(jié)果表明:KPIECE的運(yùn)行時(shí)間和內(nèi)存消耗顯著下降。最近一些機(jī)器學(xué)習(xí)方法也被用來(lái)離線學(xué)習(xí)度量函數(shù)和Steering函數(shù),它們通過(guò)最優(yōu)控制算法提供數(shù)據(jù)集,以有監(jiān)督的方式近似兩狀態(tài)間的尚需代價(jià)函數(shù)和對(duì)應(yīng)的控制輸入,從而為RRT的在線執(zhí)行提供有價(jià)值的信息。2.1.2 最優(yōu)性問(wèn)題正如前文所指出:為了獲得漸近最優(yōu)性,RRT*要求精確且最優(yōu)地連接狀態(tài)對(duì),但其實(shí)這僅適用于完整系統(tǒng)和存在較好Steering方法的非完整系統(tǒng)。Karaman和 Frazzoli再次將RRT*算法擴(kuò)展至含微分約束的運(yùn)動(dòng)規(guī)劃問(wèn)題中,并在存在局部最優(yōu)Steering方法的前提下,針對(duì)局部可控系統(tǒng),提出了保證算法漸進(jìn)最優(yōu)性的充分條件。同樣假設(shè)存在局部最優(yōu)Steering方法,滿足動(dòng)態(tài)環(huán)境中實(shí)時(shí)Kinodynamic 重規(guī)劃的RRTX算法也已被提出。類似于Kim等的工作,LQR-RRT*將基于線性二次調(diào)節(jié)器(Linear Quadratic Regulators, LQR)的啟發(fā)式應(yīng)用于RRT*,即用 LQR代價(jià)函數(shù)作為度量函數(shù)來(lái)選擇鄰近頂點(diǎn),用LQR控制策略生成軌跡。但因?yàn)槊看味际窃谛碌牟蓸狱c(diǎn)處進(jìn)行系統(tǒng)線性化,所以代價(jià)函數(shù)各不相同,而且此類軌跡無(wú)法準(zhǔn)確到達(dá)目標(biāo)狀態(tài),也就無(wú)法確定結(jié)果的最優(yōu)性。Kinodynamic RRT*針對(duì)能控線性系統(tǒng),利用fixed-final-state-free-final-time控制器來(lái)精確且最優(yōu)地連接狀態(tài)對(duì),從而滿足了上述充分條件,使算法有了漸進(jìn)最優(yōu)性保證,類似工作還包括 Goretkin等關(guān)于LQR-RRT*算法的改進(jìn)。與傳統(tǒng)運(yùn)動(dòng)規(guī)劃類似,如何利用已有信息改善采樣分布以求加速算法,已經(jīng)成為研究人員關(guān)心的一個(gè)問(wèn)題。Xie等以歐式距離與最大速度的商做為BIT*的保守啟發(fā)式,用序列二次規(guī)劃(Sequential Quadratic Programming,SQP)的變體求解局部BVP,提出了一種有較好性能提升的KMP方法。同時(shí)FMT*的Kinody?namic 版本見(jiàn)于Schmerling等的工作。不考慮微分約束的系統(tǒng)的信息集形成了一個(gè)參數(shù)化的橢圓,直接在該橢圓中采樣可有效降低算法運(yùn)行時(shí)間。但對(duì)含微分約束的系統(tǒng)來(lái)講,顯式表示信息集非常困難,而一般的拒絕采樣方法在高維情況下又效率低下。故針對(duì)存在局部Steering方法的系統(tǒng),Kunz等提出分層拒絕采樣(Hier?archcal Reject Sampling,HRS)技術(shù)來(lái)緩解這一問(wèn)題。Yi等則將其重新定義為在隱非凸函數(shù)的子水平集內(nèi)的均勻采樣問(wèn)題,從而使蒙特卡羅采樣方法得以應(yīng)用:給定信息集中先前的一個(gè)采樣點(diǎn),HNR-MCMC(Hit-and-Run Markov Chain Monte-Carlo)首先對(duì)某個(gè)隨機(jī)方向進(jìn)行采樣,然后通過(guò)拒絕采樣找到最大步長(zhǎng),使新采樣點(diǎn)位于信息集內(nèi)。Joshi等利用橢球工具箱離線求解并保存線性系統(tǒng)的初始構(gòu)型前向可達(dá)集和目標(biāo)構(gòu)型后向可達(dá)集,導(dǎo)出時(shí)間信息集(Time-Informed Set, TIS)。一旦找到初始解,后續(xù)搜索將被限定在TIS中,從而加速KMP的收斂。對(duì)含有更復(fù)雜微分約束的系統(tǒng),RRT*類方法獲得漸進(jìn)最優(yōu)性的方案很難繼續(xù)應(yīng)用。因此只通過(guò)模型前向仿真以收獲最優(yōu)性的思路便吸引了研究人員的注意力。AO-X算法將最優(yōu)KMP問(wèn)題表述為可行KMP問(wèn)題。首先利用任意可行的KMP算法(文中為RRT和EST)在State-Cost空間中生成可行軌跡,再通過(guò)逐次縮小軌跡代價(jià)的上界以滿足漸近最優(yōu)性要求。且可以證明算法的期望運(yùn)行時(shí)間為圖片,其中圖片是述解軌跡次優(yōu)性的參數(shù)。SST(Stable Sparse RRT)和SST*通過(guò)蒙特卡洛前向傳播(Monte-Carlo Forward Propagation)建立采樣樹(shù),以修剪樹(shù)上的局部次優(yōu)分枝并維持稀疏結(jié)構(gòu),分別保證了算法的漸近幾乎最優(yōu)性和漸進(jìn)最優(yōu)性。另外,一些不要求Steering方法的加速方案也已被提出:Dominance-Informed Re?gion Tree(DIRT)引入Dominance Informed Region來(lái)謀求Voronoi偏置與路徑質(zhì)量間的平衡,并采用類似于RRT-blossom的邊擴(kuò)展策略和圖修剪技術(shù)以縮短找到高質(zhì)量解軌跡所需的時(shí)間。同樣在類似于RRT-blossom的邊擴(kuò)展策略的基礎(chǔ)上,Informed SST(iSST)模仿A*引入啟發(fā)式來(lái)起到有序選擇待擴(kuò)展頂點(diǎn)和修剪的作用,提高了有限時(shí)間內(nèi)的求解成功率和相同時(shí)間內(nèi)的路徑質(zhì)量。除上述兩類獲得漸進(jìn)最優(yōu)性的方法外,狀態(tài)柵格(State Lattice)方法也可獲得分辨率下的最優(yōu)性。其由離線計(jì)算的運(yùn)動(dòng)基元庫(kù)(Motion Primitives Library)在線導(dǎo)出,是對(duì)初始狀態(tài)無(wú)碰可達(dá)集的近似。通過(guò)在狀態(tài)柵格上的搜索過(guò)程,可求得符合要求的解軌跡。2.1.3 考慮微分約束的基于學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法與傳統(tǒng)運(yùn)動(dòng)規(guī)劃類似,基于學(xué)習(xí)的方法也被應(yīng)用于考慮微分約束的運(yùn)動(dòng)規(guī)劃問(wèn)題,現(xiàn)有文獻(xiàn)中的改進(jìn)措施主要集中于:①端到端地生成軌跡;②學(xué)習(xí)在無(wú)碰可達(dá)集內(nèi)生成稠密(最優(yōu))的采樣點(diǎn)分布;③在不考慮障礙物的情況下,學(xué)習(xí)針對(duì)復(fù)雜系統(tǒng)的LPM;④學(xué)習(xí)有關(guān)NSM的度量函數(shù)。Huh等提出的c2g-HOF(cost to goHigh Order Function)神經(jīng)網(wǎng)絡(luò)架構(gòu)以工作空間為輸入,輸出給定構(gòu)型空間和目標(biāo)構(gòu)型的連續(xù)cost-to-go函數(shù),而據(jù)其梯度信息便可直接生成軌跡。MPC-MPNet (Model Prective Motion Planning Network)是MPNet在KMP領(lǐng)域的進(jìn)一步擴(kuò)展,算法框架包括神經(jīng)網(wǎng)絡(luò)生成器(Neural Generator)、神經(jīng)網(wǎng)絡(luò)鑒別器(Neural Discriminator)和并行模型預(yù)測(cè)控制器(Parallel?izable Model Predictive Controller)。前者迭代生成批量采樣點(diǎn),中者選出有最小代價(jià)的采樣點(diǎn)并通過(guò)后者進(jìn)行最優(yōu)連接(也可為所有批量采樣點(diǎn)在樹(shù)上找出最近點(diǎn),并用MPC并行計(jì)算局部最優(yōu)軌跡,即文中的MPC-MPNet Tree算法),實(shí)驗(yàn)結(jié)果表明MPC-MPNet相較現(xiàn)有算法在計(jì)算時(shí)間、路徑質(zhì)量和成功率方面有較大提升。為研究任務(wù)約束、環(huán)境不確定性和系統(tǒng)模型不確定性場(chǎng)景中的長(zhǎng)范圍路圖構(gòu)建問(wèn)題,F(xiàn)rancis等和Faust等合并了PRM 的規(guī)劃效率和RL的魯棒性,并提出由深度確定性策略梯度(Deep Deter?ministic Policy Gradient, DDPG)或連續(xù)動(dòng)作擬合值迭代(Continuous Action Fitted Value It?eration, CAFVI)訓(xùn)練的RL agent決定路圖連通性。結(jié)果表明無(wú)論相比RL agent自身還是傳統(tǒng)的基于采樣的規(guī)劃器,PRM-RL的任務(wù)完成度都有所提高。RL-RRT仍將RL agent作為局部規(guī)劃器,同時(shí)訓(xùn)練一個(gè)有監(jiān)督的可達(dá)性估計(jì)器作為度量函數(shù)。該估計(jì)器以激光雷達(dá)等局部觀測(cè)數(shù)據(jù)為輸入,預(yù)測(cè)存在障礙物時(shí)RL agent連接兩狀態(tài)所需的時(shí)間,以起到偏置采樣分布的作用。L-SBMP(Latent Sampling-based Motion Planning)方法由自編碼網(wǎng)絡(luò)、動(dòng)力學(xué)網(wǎng)絡(luò)和碰撞檢測(cè)網(wǎng)絡(luò)構(gòu)成(分別模仿基于采樣算法中的狀態(tài)采樣、局部Steering 和碰撞檢測(cè)),前者隱式地編碼了嵌入在狀態(tài)空間的系統(tǒng)動(dòng)力學(xué)低維流形,并提供了對(duì)隱空間直接采樣的能力,加之動(dòng)力學(xué)網(wǎng)絡(luò)和碰撞檢測(cè)網(wǎng)絡(luò),使L2RRT(Learned La?tent Rapidly-exploring Random Trees)可以有效地、全局地探索學(xué)習(xí)到的流形。CoMPNet(Con?strained Motion Planning Networks)針對(duì)操作規(guī)劃和有運(yùn)動(dòng)學(xué)約束的規(guī)劃問(wèn)題而提出,由環(huán)境感知和約束編碼器組成,它的輸出作為神經(jīng)規(guī)劃網(wǎng)絡(luò)的輸入,并與雙向規(guī)劃算法一起,在約束流形上生成起始構(gòu)型和目標(biāo)構(gòu)型間的可行路徑。經(jīng)過(guò)2.1節(jié)的討論,可以直觀地覺(jué)察到引入微分約束后SBMP算法所面臨的新困難:首先算法的搜索范圍發(fā)生了變化,即局部無(wú)碰可達(dá)集的概念代替了傳統(tǒng)運(yùn)動(dòng)規(guī)劃中可視區(qū)域的概念,用局部無(wú)碰可達(dá)集外的構(gòu)型引導(dǎo)采樣樹(shù)的生長(zhǎng)顯然浪費(fèi)了寶貴的計(jì)算時(shí)間。但在可達(dá)集中直接采樣的思路目前卻仍存在2個(gè)難點(diǎn):一是高維非線性系統(tǒng)可達(dá)集的實(shí)時(shí)計(jì)算,二是可達(dá)集形狀的不規(guī)則;其次更一般的TPBVP問(wèn)題的求解很難逾越,即使代之以采樣樹(shù)的前向仿真方案,過(guò)長(zhǎng)的運(yùn)行時(shí)間也將使算法在實(shí)際應(yīng)用中很難獲得最優(yōu)性,甚至變得不可行。綜上,如何像傳統(tǒng)運(yùn)動(dòng)規(guī)劃那樣,借助已有或?qū)W習(xí)到的信息限制搜索范圍、安排搜索次序、設(shè)計(jì)度量函數(shù),以加速考慮微分約束的運(yùn)動(dòng)規(guī)劃算法,將是未來(lái)的發(fā)展方向。另外,前述SBMP的加速策略或解品質(zhì)提升策略已被總結(jié)在表2中。表2 SBMP的加速策略或解品質(zhì)提升策略圖片2.2 基于優(yōu)化的運(yùn)動(dòng)規(guī)劃算法雖然考慮微分約束的基于采樣的運(yùn)動(dòng)規(guī)劃算法具有全局搜索特性且不需要初始猜想,但其在高維空間中的應(yīng)用確需消耗較長(zhǎng)計(jì)算時(shí)間,這使得一些研究人員訴諸于局部最優(yōu)的基于優(yōu)化的運(yùn)動(dòng)規(guī)劃算法受益于最優(yōu)控制直接法,即顯式考慮障礙物約束。其將函數(shù)空間中的無(wú)窮維優(yōu)化問(wèn)題轉(zhuǎn)化為有限維非線性參數(shù)優(yōu)化問(wèn)題,在一定意義上可被統(tǒng)一至模型預(yù)測(cè)控制(Model Predic?tive Control,MPC)的框架下(參見(jiàn)圖11,其根據(jù)當(dāng)前測(cè)量到的系統(tǒng)狀態(tài)圖片反復(fù)解一個(gè)開(kāi)環(huán)最優(yōu)控制問(wèn)題,這里圖片為控制量,圖片為系統(tǒng)模型,圖片為擾動(dòng),圖片圖片分別為可行的狀態(tài)集合和控制集合,圖片為目標(biāo)狀態(tài)集合,圖片為優(yōu)化指標(biāo)。上標(biāo)“圖片”表示最優(yōu)值,“~”表示標(biāo)稱量,“·”表示導(dǎo)數(shù))。文獻(xiàn)中目前大致存在類基于優(yōu)化的運(yùn)動(dòng)規(guī)劃算法:圖片圖11 標(biāo)稱MPC的一般框架1)無(wú)約束優(yōu)化方法,其目標(biāo)函數(shù)被由障礙物表示的人工勢(shì)場(chǎng)所增強(qiáng),或通過(guò)確定性協(xié)變方法,或通過(guò)概率梯度下降方法減小目標(biāo)函數(shù)值。雖不需要高質(zhì)量的初始猜想,但并未從理論上提供收斂保證,而且在有雜亂障礙物的環(huán)境中的失敗率較高,不適用于實(shí)時(shí)運(yùn)動(dòng)規(guī)劃問(wèn)題。2)序列凸規(guī)劃方法,對(duì)有約束的非凸優(yōu)化問(wèn)題來(lái)講,通用類非線性規(guī)劃算法的收斂表現(xiàn)嚴(yán)重依賴于初始猜想,無(wú)法提供收斂保證并提前預(yù)知所需的計(jì)算時(shí)間,很難應(yīng)用于實(shí)時(shí)任務(wù)。而凸優(yōu)化問(wèn)題可保證在多項(xiàng)式時(shí)間內(nèi)可靠地得到全局最優(yōu)解,為借助這一優(yōu)勢(shì),必須將非凸的最優(yōu)運(yùn)動(dòng)規(guī)劃問(wèn)題進(jìn)行凸化。其中的代表性方法包括 TrajOpt、SCvx、GuSTO,且后兩者提供了理論證明,促進(jìn)了其在實(shí)時(shí)任務(wù)中的 應(yīng)用。此類方法的詳細(xì)介紹可參考Malyuta等的文章,這里不再展開(kāi)。除問(wèn)題的凸化外,該類方法面臨的另一困難則在于如何建立恰當(dāng)?shù)谋苷霞s束。3)凸分解方法,為了避免由避障需求帶來(lái)的非凸約束的影響,凸分解方法通常將已知自由空間分解為一系列重疊的凸胞腔,并保證數(shù)個(gè)插值曲線片段分別位于各凸胞腔內(nèi)以滿足機(jī)器人運(yùn)動(dòng)過(guò)程的安全性要求(參見(jiàn)圖12,其中紫色為障礙物區(qū)域,綠色為已知自由空間分解后的凸胞腔,藍(lán)色為規(guī)劃的軌跡)。Deits和 Tedrake用IRIS(Iterative Regional Inflation by Semidefi?nite Programming)計(jì)算安全凸區(qū)域,由混合整數(shù)優(yōu)化完成多項(xiàng)式軌跡分配,最后利用一種基于平方和(Sums-of-Squares,SOS)規(guī)劃的技術(shù)確保了整個(gè)分段多項(xiàng)式軌跡不發(fā)生碰撞。相比于IRIS,Liu等根據(jù)由JPS(Jump Point Search)算法求得的初始分段路徑建立安全飛行走廊(Safe Flight Corridor, SFC),減少了凸分解的時(shí)間。同時(shí)SFC為二次規(guī)劃(Quadratic Program,QP)過(guò)程提供了一組線性不等式約束,允許進(jìn)行實(shí)時(shí)運(yùn)動(dòng)規(guī)劃。Chen等逐步構(gòu)建基于八叉樹(shù)的環(huán)境表示,并通過(guò)在八叉樹(shù)數(shù)據(jù)結(jié)構(gòu)中的有效操作來(lái)在線生成由大型重疊三維網(wǎng)格組成的自由空間飛行走廊。Gao等則在環(huán)境點(diǎn)云地圖的基礎(chǔ)上,將SFC的構(gòu)建交付于SBMP。除此之外的另一個(gè)關(guān)鍵問(wèn)題是區(qū)間分配(Interval Al?location)方式和時(shí)間分配(Time Allocation)方式,前者決定每個(gè)凸胞腔內(nèi)的軌跡間隔,而后者則處理在每個(gè)間隔上所花費(fèi)的時(shí)間。圖片圖12 凸分解方法示意雖然基于優(yōu)化的運(yùn)動(dòng)規(guī)劃算法采用了3種不同的處理思路,但其本質(zhì)上都是建立在有約束的非線性優(yōu)化問(wèn)題的基礎(chǔ)上的,所以優(yōu)化技術(shù)未來(lái)可預(yù)見(jiàn)的重大進(jìn)展將是此類算法性能提升的主要渠道。表3對(duì)本文所討論的幾種開(kāi)環(huán)最優(yōu)路徑(軌跡)規(guī)劃算法進(jìn)行了總結(jié),其中圖片圖片分別代表在路圖上選取鄰域點(diǎn)時(shí)的半徑和數(shù)量,圖片為采樣點(diǎn)數(shù)量,圖片圖片的維數(shù),圖片為體積測(cè)度,圖片圖片維單位球的體積,圖片為最優(yōu)誤差。對(duì)于圖片為最優(yōu)路徑代價(jià),圖片圖片,而含微分約束的運(yùn)動(dòng)規(guī)劃不需要幾何鄰域的定義。表3 考慮微分約束的最優(yōu)算法總結(jié)圖片


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉