IJCAI2023|PowerBEV:一個(gè)強(qiáng)大且輕量的環(huán)視圖像BEV實(shí)例預(yù)測(cè)框架
作者:王能 | 來源:3D視覺工坊
論文:PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird’s-Eye View
論文中稿CCF-A類人工智能國際頂會(huì)IJCAI 2023
論文地址:https://arxiv.org/abs/2306.10761
代碼地址:https://github.com/EdwardLeeLPZ/PowerBEV
作者名單:Peizheng Li, Shuxiao Ding, Xieyuanli Chen, Niklas Hanselmann, Marius Cordts, Jürgen Gall
作者單位:德國梅賽德斯奔馳公司,波恩大學(xué), 圖賓根大學(xué)
摘要準(zhǔn)確地感知物體實(shí)例并預(yù)測(cè)它們未來的運(yùn)動(dòng)是自動(dòng)駕駛車輛的關(guān)鍵任務(wù),使它們能夠在復(fù)雜的城市交通中安全導(dǎo)航。雖然鳥瞰圖(BEV)表示在自動(dòng)駕駛感知中是常見的,但它們?cè)谶\(yùn)動(dòng)預(yù)測(cè)中的潛力尚未得到充分探索?,F(xiàn)有的從環(huán)繞攝像頭進(jìn)行BEV實(shí)例預(yù)測(cè)的方法依賴于多任務(wù)自回歸設(shè)置以及復(fù)雜的后處理,以便以時(shí)空一致的方式預(yù)測(cè)未來的實(shí)例。在本文中,我們不同于這中范例,提出了一個(gè)名為PowerBEV的高效新型端到端框架,采用了幾種旨在減少先前方法中固有冗余的設(shè)計(jì)選擇。首先,與其按自回歸方式預(yù)測(cè)未來,PowerBEV采用了由輕量級(jí)2D卷積網(wǎng)絡(luò)構(gòu)建的并行多尺度模塊。其次,我們證明,分割和向心反向流對(duì)于預(yù)測(cè)是足夠的,通過消除冗余輸出形式簡化了先前的多任務(wù)目標(biāo)。基于此輸出表示,我們提出了一種簡單的基于流變形的后處理方法,可在時(shí)間上產(chǎn)生更穩(wěn)定的實(shí)例關(guān)聯(lián)。通過這種輕量化但強(qiáng)大的設(shè)計(jì),PowerBEV在NuScenes數(shù)據(jù)集上勝過了最先進(jìn)的方法,并為BEV實(shí)例預(yù)測(cè)提供了一種替代范例。項(xiàng)目代碼已經(jīng)開源:https://github.com/EdwardLeeLPZ/PowerBEV
主要貢獻(xiàn)- 我們提出了PowerBEV,一個(gè)新穎而優(yōu)雅的基于視覺的端到端框架,它只由2D卷積層組成,用于在BEV中執(zhí)行多個(gè)對(duì)象的感知和預(yù)測(cè)。
- 我們證明,由于冗余表示引起的過度監(jiān)督會(huì)影響模型的預(yù)測(cè)能力。相比之下,我們的方法通過簡單地預(yù)測(cè)分割和向心反向流來實(shí)現(xiàn)語義和實(shí)例級(jí)別的代理預(yù)測(cè)。
- 我們提出的基于向心反向流的提議分配優(yōu)于以前的前向流結(jié)合傳統(tǒng)的匈牙利匹配算法。
我們的方法的框架如圖1所示。它主要由三個(gè)部分組成:感知模塊、預(yù)測(cè)模塊和后處理階段。感知模塊將M個(gè)多視角相機(jī)圖像作為個(gè)時(shí)間戳的輸入,并將他們轉(zhuǎn)換為個(gè)BEV特征圖。然后,預(yù)測(cè)模塊融合提取的BEV特征中包含的時(shí)空信息,并同時(shí)預(yù)測(cè)一系列分割地圖和向心反向流,用于未來幀。最后,通過基于變形的后處理。從預(yù)測(cè)的分割和流中恢復(fù)未來的實(shí)例預(yù)測(cè)。
圖1:PowerBEV的框架
1、基于LSS的感知模塊為了獲取用于預(yù)測(cè)的視覺特征,我們遵循之前的工作,并在LSS的基礎(chǔ)上建立起從環(huán)繞攝像機(jī)中提取BEV特征網(wǎng)格。對(duì)于每個(gè)時(shí)間t的每個(gè)相機(jī)圖像,我們應(yīng)用共享的EfficientNet網(wǎng)絡(luò)來提取****特征,其中我們將的前個(gè)通道指定為上下文特征,后面的個(gè)通道表示分類深度分布。通過外積構(gòu)造一個(gè)三維特征張量。
其中,根據(jù)估計(jì)的深度分布置信度將上下文特征提升到不同的深度中。然后,每個(gè)時(shí)間戳的每個(gè)相機(jī)特征分布映射基于對(duì)應(yīng)相機(jī)的已知內(nèi)部參數(shù)和外部參數(shù)被投影到以車輛為中心的坐標(biāo)系中。隨后,它們沿著高度維度加權(quán),以獲得時(shí)間戳t處的全局BEV狀態(tài),其中是狀態(tài)通道數(shù)量,(H,W)是BEV狀態(tài)地圖的網(wǎng)格大小。最后,所有的BEV狀態(tài)合并到當(dāng)前幀中,并像FIERY一樣堆疊,因此這追蹤表示是獨(dú)立于自車位置的當(dāng)前全局動(dòng)態(tài)。
2、多尺度預(yù)測(cè)模塊圖2:多尺度預(yù)測(cè)模塊的結(jié)構(gòu)
獲得過去環(huán)境的簡潔表示S后,我們使用一個(gè)多尺度U-Net類編碼器****架構(gòu),將觀察到的BEV特征圖作為輸入,并預(yù)測(cè)未來的分割地圖和向心反向流場(chǎng),如圖2所示。為了僅使用2D卷積進(jìn)行時(shí)空特征處理,我們將時(shí)間和特征維度折疊成一個(gè)單一的維度,從而得到輸入張量。編碼器首先逐步在空間上對(duì)進(jìn)行下采樣,生成多尺度BEV特征,其中。在一個(gè)中間的預(yù)測(cè)器階段,將特征從映射到,獲取 。最后,****鏡像編碼器,在原始尺度上重建出未來的BEV特征。每個(gè)分支分別被監(jiān)督以預(yù)測(cè)未來的分割地圖或向心反向流場(chǎng)??紤]到任務(wù)和監(jiān)督的差異,我們?yōu)槊總€(gè)分支使用相同的架構(gòu)但不共享權(quán)重。與以前基于空間LSTM或空間GRU的工作相比,我們的架構(gòu)只利用2D卷積,在解決長程時(shí)間依賴性方面大大緩解了空間RNN的限制。
3、多任務(wù)的設(shè)置現(xiàn)有的方法遵循自下而上的原則,為每個(gè)幀生成實(shí)例分割,然后根據(jù)前向流使用匈牙利匹配算法在幀之間關(guān)聯(lián)實(shí)例。因此,需要四個(gè)不同的頭部:語義分割、中心性、未來前向流和BEV中的每像素向心偏移。這導(dǎo)致由于多任務(wù)訓(xùn)練而產(chǎn)生模型冗余和不穩(wěn)定性。相比之下,我們首先發(fā)現(xiàn),流和向心偏移都是實(shí)例掩模內(nèi)的回歸任務(wù),并且流可以理解為運(yùn)動(dòng)偏移量。此外,這兩個(gè)量與中心性在兩個(gè)階段中組合:(1)向心偏移將像素分組到每個(gè)幀中預(yù)測(cè)的實(shí)例中心,以將像素分配給實(shí)例ID;(2)流用于匹配兩個(gè)連續(xù)幀中的中心以進(jìn)行實(shí)例ID關(guān)聯(lián)?;谝陨戏治?,使用統(tǒng)一表示形式直觀地解決這兩個(gè)任務(wù)。為此,我們提出了向心反向流場(chǎng),它是從時(shí)間t處的每個(gè)前景像素到時(shí)間t?1處關(guān)聯(lián)實(shí)例標(biāo)識(shí)的對(duì)象中心的位移向量。這將像素到像素的反向流向量和向心偏移向量統(tǒng)一為單一表示形式。使用我們提出的流,可以直接將每個(gè)占用的像素關(guān)聯(lián)到上一幀中的實(shí)例ID。這消除了將像素分配給實(shí)例的額外聚類步驟,將先前工作中使用的兩階段后處理簡化為單階段關(guān)聯(lián)任務(wù)。此外,我們發(fā)現(xiàn)語義分割地圖和中心性的預(yù)測(cè)非常相似,因?yàn)橹行幕緦?duì)應(yīng)于語義實(shí)例的中心位置。因此,我們建議直接從預(yù)測(cè)的分割地圖中提取局部最大值來推斷對(duì)象中心。這消除了分別預(yù)測(cè)中心的需要,如圖3所示。
圖3:多任務(wù)設(shè)置
總的來說,我們的網(wǎng)絡(luò)僅僅產(chǎn)生兩個(gè)輸出,語義分割和向心反向流。我們使用top-k,k=25%的交叉熵作為語義分割損失函數(shù),平滑的L1距離作為流動(dòng)損失函數(shù)??偟膿p失函數(shù)為。
,和使用不確定性權(quán)重自動(dòng)的更新。
4、實(shí)例關(guān)聯(lián)圖4:實(shí)例關(guān)聯(lián)
對(duì)于實(shí)例預(yù)測(cè),我們需要隨著時(shí)間推移將未來的實(shí)例相互關(guān)聯(lián)?,F(xiàn)有的方法使用前向流將實(shí)例中心投影到下一幀,然后使用匈牙利匹配將最近的代理中心進(jìn)行匹配,如圖4.a所示。這種方法執(zhí)行實(shí)例級(jí)別的關(guān)聯(lián),其中實(shí)例身份由其中心表示。因此,僅使用位于對(duì)象中心上的流向量用于運(yùn)動(dòng)預(yù)測(cè)。這有兩個(gè)缺點(diǎn):首先,沒有考慮對(duì)象旋轉(zhuǎn);其次,單個(gè)位移向量比覆蓋整個(gè)實(shí)例的多個(gè)位移向量更容易出錯(cuò)。在實(shí)踐中,這可能導(dǎo)致重疊的預(yù)測(cè)實(shí)例,導(dǎo)致錯(cuò)誤的ID分配。這在長期預(yù)測(cè)范圍內(nèi)的近距離物體上尤為明顯。利用我們提出的向心反向流,我們進(jìn)一步提出了基于變形的像素級(jí)關(guān)聯(lián)來解決上述問題。我們的關(guān)聯(lián)方法的說明如圖4.b所示。對(duì)于每個(gè)前景網(wǎng)格單元,該操作將實(shí)例ID直接從前一個(gè)幀中流向量目標(biāo)處的像素傳播到當(dāng)前幀。使用此方法,每個(gè)像素的實(shí)例ID都被單獨(dú)分配,從而產(chǎn)生像素級(jí)關(guān)聯(lián)。與實(shí)例級(jí)別關(guān)聯(lián)相比,我們的方法對(duì)嚴(yán)重的流預(yù)測(cè)錯(cuò)誤更具有容忍度,因?yàn)檎鎸?shí)中心周圍的相鄰網(wǎng)格單元傾向于共享相同的身份,而錯(cuò)誤往往發(fā)生在單個(gè)外圍像素上。此外,通過使用向后流變形,可以將多個(gè)未來位置與前一幀中的一個(gè)像素關(guān)聯(lián)起來。這對(duì)于多模式未來預(yù)測(cè)是有益的。正如所述,向后關(guān)聯(lián)需要在前一幀中的實(shí)例ID。特殊情況是第一個(gè)幀(t = 0)的實(shí)例分割生成,其沒有其前一幀(t = -1)的實(shí)例信息可用。因此,僅針對(duì)時(shí)間戳t = 0,我們通過將像素分組到過去實(shí)例中心來分配實(shí)例ID。
主要結(jié)果我們首先將我們的方法與其他baseline相比較,結(jié)果如表1所示。我們的方法在感知范圍設(shè)置下的評(píng)估指標(biāo)IoU(Intersection-over-Union)和VPQ(video panoptic quality)均取得了顯著的改進(jìn)。在長距離設(shè)置中,PowerBEV的表現(xiàn)優(yōu)于重新生成的FIERY,在IoU方面提高了1.1%,在VPQ方面提高了2.9%。此外,盡管使用較低的輸入圖像分辨率和更少的參數(shù),PowerBEV在所有指標(biāo)上的表現(xiàn)都優(yōu)于BEVerse。與其他引入模型隨機(jī)過程的方法相比,PowerBEV是一種確定性方法,能夠?qū)崿F(xiàn)準(zhǔn)確的預(yù)測(cè)。這也展示了反向流在捕捉多模態(tài)未來方面的能力。
圖5:定量評(píng)估解決
下圖展示了我們方法的定性結(jié)果。我們展示了在三種典型駕駛場(chǎng)景中(城市道路上交通密集的情況、停車場(chǎng)中靜態(tài)車輛眾多的情況和雨天駕駛場(chǎng)景)與FIERY的比較。我們的方法為最常見的交通密集場(chǎng)景提供了更精確、更可靠的軌跡預(yù)測(cè),這在第一個(gè)例子中變得特別明顯,其中車輛轉(zhuǎn)向自車左側(cè)的側(cè)街。而FIERY只對(duì)車輛位置作出了一些模糊的猜測(cè),并且難以處理它們的動(dòng)態(tài)特征,與之相反,我們的方法提供了更好地匹配真實(shí)車輛形狀以及未來可能軌跡的清晰物體邊界。此外,從第二個(gè)例子的比較中可以看出,我們的框架可以檢測(cè)到位于較遠(yuǎn)距離的車輛,而FIERY則失敗了。此外,我們的方法還可以檢測(cè)到在雨天場(chǎng)景中被墻壁遮擋的卡車,即使對(duì)于人眼來說也很難發(fā)現(xiàn)。
圖6:可視化對(duì)比結(jié)果
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。