您當前的位置:首頁 > 攝影

3D Object Detection for Autonomous Driving: A Survey(六)

作者:由 小何同學 發表于 攝影時間:2021-11-07

Ming等人提出了ContFuse。它利用連續卷積層,在多個尺度上執行多感測器融合。然而,這樣的融合操作並不簡單,例如,在鐳射雷達BEV特徵圖中,有相當多的離散畫素在相機檢視中是不可預測的,一個是捕獲世界的原生3D結構,另一個是在2D相機平面上代表世界。因此,ContFuse首先在LiDAR BEV特徵圖中為每個畫素尋找k個最近的LiDAR點,然後根據源LiDAR點投影到影象上的座標,透過雙線性插值得到k個對應的影象特徵。接下來,ContFuse利用MLP操作對插值影象特徵進行編碼,並結合k個最近的LiDAR點與LiDAR BEV特徵圖中的目標畫素之間的連續三維幾何偏移,生成目標目標LiDAR BEV畫素的最終表徵。注意,相對偏移的目的是建模每個點對最終表示的貢獻。儘管ContFuse在利用影象特徵圖和BEV特徵圖方面率先進行了模態融合。但這種融合在很長一段時間內可能會遇到稀疏性的問題,鐳射雷達訊號本質上侷限於64或128稀疏旋轉鐳射束。

Liang等人提出了MMF,它是一種多工以及多感測器融合架構。MMF利用多個相關任務(例如,背景估計、深度補償、2D/3D目標檢測),結果表明,這些任務是互補的,透過不同層次的資訊融合學習到更好的特徵表示。具體來說,MMF實現了兩次層次的融合:point-wise特徵融合和Roi特徵融合。前者利用鐳射雷達點作為中間橋樑,對BEV特徵圖中的每個畫素點,MMF透過將最近的鐳射雷達點投影到影象上來檢索相應的影象特徵。後者分別對影象和BEV特徵圖進行ROIAlign操作,提取感興趣的區域進行融合和進一步細化。此外,輔助任務,背景估計,深度補償,透過提供幾何先驗和跨模態相關資訊,促進特徵融合。MMF的執行速度為10fps。儘管MMF集成了多工更有利於3D檢測任務,其缺點是:深度補償確實會使鐳射雷達點密度增大,特別是在遠距離,但估計誤差會在多大程度上影響系統的魯棒性是未知的。Jin等人提出了3D-CVF。具體來說,3D-CVF先將 體素化後的點雲以三維稀疏卷積的方式下采樣8x,將3D特徵體編碼到2D鳥瞰圖特徵圖中,並利用預先訓練的ResNet-118並行提取相應的影象特徵。對這兩種模型進行融合最大的挑戰就是未對準檢視(misalignment view)。為此,3D-CVF的第一階段提出了自動校準的特徵投影,本質上是連續融合層的簡化版本,用於對齊相機檢視和LiDAR BEV檢視。特別是在ContFuse中,每個畫素提取k個最近鄰的LiDAR點,作為LiDAR BEV特徵圖中的橋樑,然後將這k個LiDAR點投影到相機檢視中,檢索畫素級的影象特徵。為了得到最終的相關特徵,將一個PointNet-like block應用於k個畫素級影象特徵。然而,對於3D-CVF,體素網格的中心座標直接投影到影象平面上來插值相機特徵。同時,3D-CVF採用自適應注意力機制從影象特徵中過濾資訊並卷積三維點雲的特徵,考慮到第一階段的候選區,3D Roi網格池化用於將影象特徵轉移和融合到對齊的LiDAR BEV特徵圖中,以實現Roi融合,並補充更多的空間資訊。儘管3D-CVF在效能上比現有的基於融合工作有顯著的提高,但與基於鐳射雷達的方法相比仍然存在差距(例如,PV-RCNN)。需要注意的是,“特徵模糊”是所有畫素級融合方法中普遍存在的問題,也就是說,3D空間中相互遠離的兩個LiDAR點可能大致對應於影象位置中的同一畫素,這不可避免地導致了偏差。

綜上所述,對於哪種正規化更好,還沒有達成共識。基於順序融合的方法以一種順序方式整合特徵,其中當前階段依賴於前一階段。在這樣的範例中,模型體系結構通常不能根據高記憶體需求進行端到端訓練。此外,不同階段之間的耦合更緊密是所有順序融合方法的典型特徵之一,即前一階段的效能較差,可能會導致其餘階段的效能惡化。此外,提供資訊的中間特徵很大程度上是為了方便,這對目標檢測似乎是至關重要的。基於並行融合的方法將特徵整合到一個多模態表示中。只需要一個學習階段。然而,感測器之間的檢視不一致通常是棘手的。

3D Object Detection for Autonomous Driving: A Survey(六)

相關重要論文

3DOP: 3D Object Proposals using Stereo Imagery for Accurate Object Class Detection

Monocular 3D Object Detection for Autonomous Driving

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis

3D Bounding Box Estimation Using Deep Learning and Geometry

GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Multi-Level Fusion based 3D Object Detection from Monocular Images

Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud

Deep Ordinal Regression Network for Monocular Depth Estimation

Frustum PointNets for 3D Object Detection from RGB-D Data

Vehicle Detection from 3D Lidar Using Fully Convolutional Network

PIXOR: Real-time 3D Object Detection from Point Clouds

SECOND: Sparsely Embedded Convolutional Detection

PointPillars: Fast Encoders for Object Detection from Point Clouds

Structure Aware Single-stage 3D Object Detection from Point Cloud

End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

Frustum ConvNet: Sliding Frustums to Aggregate Local Point-Wise Features for Amodal 3D Object Detection

Part-A^2 Net: 3D Part-Aware and Aggregation Neural Network for Object Detection from Point Cloud

HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

PointNet++:Deep Hierarchical Feature Learning on Point Sets in a Metric Space

PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation

PointRCNN:3D Object Proposal Generation and Detection from Point Cloud

3DSSD: Point-based 3D Single Stage Object Detector

Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

Multi-View 3D Object Detection Network for Autonomous Driving

STD:Sparse-to-Dense 3D Object Detector for Point Cloud(騰訊&香港大學)

Fast Point R-CNN

PointPainting: Sequential Fusion for 3D Object Detection

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

Pseudo-LiDAR++: Accurate Depth for 3D Object Detection in Autonomous Driving Yurong

End-to-end Pseudo-LiDAR for Image-Based 3D Object Detection

AVOD:Joint 3D Proposal Generation and Object Detection from View Aggregation

ContFuse:Deep Continuous Fusion for Multi-Sensor 3D Object Detection

3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection

MMF:Multi-task multi-sensor fusion for 3d object detection

標簽: 3D  object  Lidar  detection  特徵