您當前的位置:首頁 > 寵物

對普通碩士來說,點雲語義分割好做麼?

作者:由 自動駕駛之心 發表于 寵物時間:2022-10-08

摘要

自動駕駛汽車的魯棒環境感知是一項巨大的挑戰,這使得多感測器配置與例如相機、鐳射雷達和雷達至關重要。在理解感測器資料的過程中,3D 語義分割起著重要的作用。因此,本文提出了一種基於金字塔的鐳射雷達和攝像頭深度融合網路,以改進交通場景下的 3D 語義分割。單個感測器主幹提取相機影象和鐳射雷達點雲的特徵圖。一種新穎的 Pyramid Fusion Backbone 融合了這些不同尺度的特徵圖,並將多模態特徵組合在一個特徵金字塔中,以計算有價值的多模態、多尺度特徵。Pyramid Fusion Head 聚合這些金字塔特徵,並結合感測器主幹的特徵在後期融合步驟中進一步細化。該方法在兩個具有挑戰性的戶外資料集上進行了評估,並研究了不同的融合策略和設定。論文基於range view的lidar方法已經超過迄今為止提出的所有融合策略和結構。

作者:汽車人 | 原文出處:公眾號【自動駕駛之心】

自動駕駛之心->:技術交流群

強烈推薦!自動駕駛與AI學習社群:歡迎加入國內首個自動駕駛開發者社群!這裡有最全面有效的自動駕駛與AI學習路線(感知/定位/融合)和自動駕駛與AI公司內推機會!

論文的主要貢獻如下:

模組化多尺度深度融合架構,由感測器主幹和新穎的金字塔融合網路組成;

金字塔融合主幹用於鐳射雷達和影象在range view空間中的多尺度特徵融合;

金字塔融合頭用於聚合和細化多模態、多尺度的金字塔特徵。

對普通碩士來說,點雲語義分割好做麼?

相關工作

2D語義分割

全卷積網路(FCN)開創了2D語義分割的新局面。全卷積網路專為端到端畫素級預測而設計,因為它們用卷積替換全連線層。由於最初的 FCN 難以捕捉場景的全域性上下文資訊 [7],因此出現了新的結構 [7]-[9] — 基於金字塔特徵進行多尺度上下文聚合,在收集全域性上下文的同時保留精細細節。PSPNet [7] 應用了一個金字塔池化模組(PPM),其結合最後一個特徵圖的不同尺度。因此,網路能夠捕獲場景的上下文以及精細的細節。HRNetV2 [9] 等其他方法利用主幹中已經存在的金字塔特徵進行特徵提取。對於全景分割的相關任務,EfficientPS [8] 透過應用雙向特徵金字塔網路 (FPN) [10],自底向上和自頂向下結合各種尺度的特徵,之後使用語義頭,包含大規模特徵提取器 (LSFE)、密集預測單元 (DPC) [11] 和不匹配校正模組 (MC),以捕獲用於語義分割的大尺度和小尺度特徵。

3D語義分割

與將 CNN 應用於規則網格排列的影象資料相比,它們不能直接應用於 3D 點雲。目前得到廣泛應用的已經有幾種表示形式和專門的體系結構。

直接處理非結構化原始資料的先驅方法是 PointNet [3],它應用共享的多層感知器來提取每個輸入點雲的特徵。 由於必須對任何輸入排列保持不變,因此使用對稱操作來聚合特徵。 進一步PointNet++ [4] 透過點雲的遞迴分層組合來利用特徵之間的空間關係。

不處理原始點雲而將其轉換為離散空間的方法,例如 2D 或 3D 柵格。一種基於球面投影的新穎的2D柵格表示,即range view。 SqueezeSeg [12] 是最早利用這種表示進行道路目標分割的方法之一。最新的方法 SqueezeSegV3 [13] 使用空間自適應卷積來消除range view的變化特徵分佈。 RangeNet++ [1] 提出了一種有效的基於 kNN 的後處理步驟,以克服球面投影引起的一些缺點。與以前的方法相比,SalsaNext [2] 改進了網路結構的各個方面,例如用於解碼的pixel-shuffle和 Lovasz-Softmax-Loss [14] 的使用。 [15]中使用了卷積的另一種適應,這種方法應用輕量級harmonic dense卷積來實時處理range view,並取得了不錯的結果。此外,出現了利用多種表示的混合方法 [16]、[17]。

3D 多感測器融合

多感測器融合在計算機視覺的不同任務中受到廣泛關注。 相機和鐳射雷達功能的結合主要用於 3D 目標檢測。 語義分割等密集預測所需的特徵的密集融合只有少數工作[18]-[21]進行了研究。

在 [18] 中,將基於密集和roi的融合應用於多個任務,包括 3D 目標檢測。 另一種 3D 目標檢測方法 [19] 使用連續卷積來結合密集相機和鐳射雷達的BEV特徵。 融合層將多尺度影象特徵與網路中不同尺度的鐳射雷達特徵圖融合在一起。

LaserNet++ [20] 實現目標檢測和語義分割兩個任務。 其首先透過殘差網路處理相機影象。 使用投影對映,將相機特徵轉換為range view。 之後,concat的特徵圖被輸入到 LaserNet [22]。 Fusion3DSeg [21] 對相機和鐳射雷達特徵使用迭代融合策略。 在 Fusion3DSeg 中,相機和range view特徵按照迭代深度聚合策略進行融合,以迭代融合多尺度特徵。 最終特徵進一步與來自 3D 分支的基於點雲的特徵相結合,而不是常用的基於 kNN 的後處理 [1]特徵。

與 [18] 相比,[19] 所提出的方法是模組化的,並且各個感測器主幹彼此獨立,因為沒有影象特徵被送到鐳射雷達主幹。 此外,[19]提出了一種新穎的雙向金字塔融合策略。 而 LaserNet++ [22] 只融合一次,不使用多尺度融合。 Fusion3DSeg [21] 是最相關的工作,使用了迭代融合策略,這與本文的並行自底向上和自頂向下的金字塔策略有很大不同。

方法

論文提出的深度感測器融合方法PyFu由四個主要部分組成。包含兩個主幹,分別提取lidar和影象特徵,之後是Pyramid Fusion Backbone,以自頂向下和自底向上的方式在不同尺度上融合兩種模式的編碼器特徵。進一步,Pyramid Fusion Head 結合了這些特徵,並在後期融合步驟中將它們與兩個感測器主幹特徵結合起來得到最終輸出。整體結構如下圖a所示。模組化的方式訓練策略的選擇允許論文的方法處理相機不可用、更換主幹或感測器而不影響另一個,並聯合預測相機和鐳射雷達語義分割任務。因此,兩個主幹都對其感測器資料進行了預訓練,並在整個融合架構的訓練過程中凍結。所以論文的演算法可以預測單個感測器的語義結果,作為無相機或額外相機分割的備選。

對普通碩士來說,點雲語義分割好做麼?

Lidar主幹

鐳射雷達主幹根據 [21]、[23] 的球面投影計算輸入點雲的特徵,這些特徵在range view中表示。其受 EfficientPS [8] 的啟發,並適應了range view。與相機影象相比,range images的解析度較小,尤其是垂直方向,因此前兩個stage的下采樣步驟僅在水平方向執行。此外,論文使用 EfficientNet-B1 [24] 作為編碼器並刪除最後三個stage。因此,雙向 FPN 只有三個stage而不是四個stage,並且輸出通道減少到 128 個,因為 EfficientNet-B1 使用的特徵通道比 EfficientNet-B5 少。如上圖 a 所示,第三、第四和第六stage的特徵圖輸入至 Pyramid Fusion Backbone中,用於與相機特徵融合。由於移除了 FPN,相應的 DPC 模組 [8] 也從語義頭中移除。頭部為 Pyramid Fusion Head 的後期融合提供其輸出特徵。

Camera主幹

論文研究的第一個主幹還是 EfficientPS,但使用原始的 Efficient-B5 作為編碼器。 與鐳射雷達主幹相比,EfficientPS 可以直接作為相機主幹。 同樣,第三、第四和第六stage的特徵圖輸入至 Pyramid Fusion Backbone。 對於 Pyramid Fusion Head 中的後融合步驟,使用語義頭的輸出。

此外,選擇基於ResNet101 [25] 的 PSPNet 作為另一個主幹。 ResNet101 的 conv3_4、conv4_23 和 conv5_3 層的三個特徵圖作為 Pyramid Fusion Backbone 的輸入提供。 PPM 的輸出作為後期融合的輸入。

金字塔融合網路

融合演算法的核心模組是 Pyramid Fusion Network,其融合了鐳射雷達和相機的特徵。 融合模組將特徵轉換至同一空間下,然後對兩種模態進行融合。 Pyramid Fusion Backbone 在不同尺度下進行融合,並且以自頂向下和自底向上的方式聚合和組合得到的融合特徵,如上圖 b 所示。 Pyramid Fusion Head 在後期融合步驟中對這些多模態、多尺度特徵進行組合和進一步細化。

特徵轉換

為了實現鐳射雷達和攝像頭的融合,特徵需要在同一空間下。 因此,需要進行影象到range view空間的特徵投影。 此外,投影必須適合不同尺度的特徵圖。 為了解決這個任務,論文使用了Fusion3DSeg [21]、[26] 的可擴充套件投影。 總體思路是根據3D點雲建立從影象到range view的座標對映。 每個點雲都可以投影到range view以及影象中,從而在影象和range view座標之間建立所需的連結。

融合模組

特徵轉換和融合由融合模組執行,如下圖。首先,兩個感測器的特徵圖都被裁剪至相同的視野,因為融合只能在這個區域進行。影象特徵透過上述特徵轉換在空間上轉換到range view空間上,然後學習特徵投影以對齊鐳射雷達和影象的特徵空間,由一個反向殘差塊 (IRB) [8] 實現。lidar特徵使用雙線性插值對齊影象特徵的大小,以方便進行融合。然後將對齊後的兩個特徵concat,後面使用一個或多個用於學習融合的殘差模組。該模組旨在利用不同型別和數量的block來實現不同的融合策略。論文研究了一種基於Bottleneck Residual Block (BRB) [27] 的策略,以及使用 IRB (Inverted Residual Block )的反向殘差融合策略。

對普通碩士來說,點雲語義分割好做麼?

金字塔融合主幹

所提出的融合模組被合併到雙向 FPN 中以融合不同尺度的多感測器特徵,然後是自底向上和自頂向下的聚合以計算多模式、多尺度特徵。從鐳射雷達主幹中,三種不同尺度的特徵輸入至對應的融合模組。在那裡,特徵圖被上取樣到目標輸出解析度,並與來自影象主幹的特徵圖融合,這些特徵圖也來自三個不同的尺度。然後將融合得到的三個特徵圖聚合在自底向上和自頂向下的特徵金字塔中,以計算多尺度特徵。這樣,不同尺度的多模態特徵的進行融合,一方面是精細的細節,包含越來越多的上下文,另一方面是上下文,新增的細節越來越多。最終組合兩個金字塔輸出,並將生成的多模態、多尺度金字塔特徵傳遞給 Pyramid Fusion Head。

金字塔融合head

head的第一步類似於鐳射雷達主幹的語義head,其結合了來自雙向 FPN 的三個特徵圖。 進一步,論文使用影象主幹和lidar主幹的最後一層特徵,以改進金字塔融合網路的特徵。最終的特徵圖接一個 1x1 卷積和softmax,得到分割結果。 論文也使用了基於 kNN 的後處理 [1]步驟。

實驗結果

本文在SemanticKITTI [28] and PandaSet [29]兩個資料集上展開實驗。

金字塔融合網路

論文首先在SemanticKITTI上展開實驗,結果如下表所示。總體而言,PyFu 的效能分別優於兩個基線 +3。9% 和 +2。7%,推理時間為 48 毫秒。

對普通碩士來說,點雲語義分割好做麼?

下一步,研究融合模組內部的不同融合策略,結果如下表所示。首先,評估不同策略對金字塔主幹 PFB 的影響。使用 BRB 後跟Residual Basic Block (BB) [27] 的bottleneck fusion策略優於IRB 的反向策略。這也適用於整個 Pyramid Fusion Network。

對普通碩士來說,點雲語義分割好做麼?

論文進一步在PandaSet上展開實驗,相比於基線實現了+8。8% 的顯著改進。

對普通碩士來說,點雲語義分割好做麼?

視覺化結果如下:

對普通碩士來說,點雲語義分割好做麼?

定量結果

進一步,論文與SOTA的基於range view的方法進行比較,以評估多感測器融合的優勢,SemanticKITTI上的結果如下表所示。總體上優於所有鐳射雷達方法。值得一提的是,增益的主要來自融合,而不是基線。這再次強調了影象特徵對改進 3D 語義分割的價值。論文進一步比較了與其他融合網路的效能。金字塔融合策略優於所有其他融合方法,PyFu 和 Fusion3DSeg [21] 的效能優勢表明多尺度感測器融合的巨大潛力。

對普通碩士來說,點雲語義分割好做麼?

最後,論文在PandaSet資料集上對比了集中方法,結果如下表所示:

對普通碩士來說,點雲語義分割好做麼?

參考

[1] Deep Sensor Fusion with Pyramid Fusion Networks for 3D Semantic Segmentation、

自動駕駛與AI學習社群

歡迎加入國內首個自動駕駛開發者社群!這裡有最全面有效的自動駕駛與AI學習路線(感知/定位/融合)和自動駕駛與AI公司內推機會!

自動駕駛之心-分割

建了自動駕駛之心-分割交流群!想要進交流群的同學,可以直接加微訊號:

wenyirumo

。加的時候備註一下:

分割+學校/公司+暱稱

,即可。然後就可以拉你進群了。

強烈推薦大家關注

自動駕駛之心知乎

賬號和【

自動駕駛之心

】微信公眾號,可以快速瞭解到最新優質的自動駕駛方向論文。

往期回顧

自動駕駛之心 | 一文盡覽 | 傳統光流方法彙總及其在深度學習中的應用!(基於相位/能量/匹配/變分)

自動駕駛之心 | BEV最新綜述 | 學術界和工業界方案彙總!最佳化方法與trick

自動駕駛之心 | 純視覺3D目標檢測新SOTA!STS:基於Camera的深度估計新方法

自動駕駛之心 | 3D多目標跟蹤新思路!基於多感測器融合的加權幾何距離關聯方法

自動駕駛之心 | L0到L4超全介紹!30+自動駕駛方案彙總

自動駕駛之心 | 超大超全!萬字長文詳解多領域實時目標檢測演算法(2022最新)

自動駕駛之心 | 超全 | 基於純視覺Multi-Camera的3D感知方法彙總!

自動駕駛之心 | 超越老師!PointDistiller:面向高效緊湊 3D 檢測的結構化知識蒸餾(CVPR2022)

自動駕駛之心 | 最新SOTA!SSL-Lanes:首篇運動預測中的自監督學習正規化

自動駕駛之心 | 自動駕駛的“天眼”!聊一聊高精地圖領域中所有主流的製作方案

標簽: 融合  特徵  主幹  鐳射雷達  尺度