2D-to-3D之影象特徵到鳥瞰圖的轉換

作者：由馬上科普發表于繪畫時間：2022-09-08

關注微信公眾號：人工智慧前沿講習

對話方塊回覆“

book2

”獲取論文資料

該篇整體效能不算很強，在KITTI上的結果也排的很後。但是其中有一些思想（3D如何使用2D影象特徵）是值得一定程度借鑑的，不過與此同時，仔細研讀分析之後，作者目前的使用方式也的確會存在很大的問題。

我們重點來講作者如何利用2D的影象特徵來構建3D的鳥瞰圖特徵的。注意這裡作者沒有用到任何的lidar的資訊，3D上的鳥瞰圖只是一個構造出來的feature層，同時該feature會根據投影關係從2D的卷積feature中抽取得到。具體抽取的方式如下圖：

核心一點就是將卷積網路對影象卷積得到的feature，經過3D到2D的project+各種average pooling取到3D鳥瞰圖上，從而構成3D鳥瞰圖的feature map。這樣一來，我們就可以在該feature map上自由地迴歸各種具有3D屬性的物件了。

這種投影取卷積feature的方式值得借鑑，不過深思一下，目前的這種方式的確還存在很多問題。其實有些問題就暴露在論文中的一些圖片中了。比如我們看確定position的訓練過程圖：

大家可以看到明顯的散射狀，並且一直學到最後散射狀的情況還是明視訊記憶體在的。這是因為相機光心穿過每輛車身後的區域都會投影落在2D的車輛上，從而使得他們捕捉到非常相似的特徵。然而，網路給到的監督卻需要強行學習到這些微小的區別，並只給第一個接觸到的點最強的輸出。這樣網路的學習壓力會非常的大，所以其實建議能夠引入一些位置的編碼或者採用一些trick減輕網路的壓力（如採用輻射狀的迴歸，每條輻射線只回歸最近的最大響應值）。

另外還有一個比較普遍的問題，也是現有大部分演算法基本上都暫時不考慮的一個問題，就是相機外參的變化。車輛在行駛過程中會產生起伏，從而導致相機的外參會不斷變化，使得路面是水平的面這個假設很難成立。所以如下圖：

其中10m，20m這些畫的線其實理應會不斷變化的，應該是時近時遠的。可能這個對迴歸較近處的車不是特別敏感，但是等車輛距離超過100m，就會有很大問題。另外，超過100m之外地面本身的起伏也會大大影響對車距的判斷。所以，從2D image估計3D屬性的任務任重而道遠，還有非常非常多強的挑戰等著我們。

@知乎：李翔

版權宣告

本文版權歸《李翔》，轉載請自行聯絡。

標簽： 3D Feature 2d 鳥瞰圖卷積

上一篇:學設計哪個方面最容易掙錢？

下一篇：《安琪》：唐家有子初長成（一）

2D-to-3D之影象特徵到鳥瞰圖的轉換

猜你喜歡

神經網路模型:Backbone

CVPR 2019 | CSP行人檢測：無錨點框的檢測新思路

二次元和三次元和四次元的區別？

NeRF 神經輻射場

su的鳥瞰圖和頂檢視有什麼不一樣?