CVPR2020-機器人視覺類6DoF姿態估計論文

作者：由耶哼Chen 發表于書法時間：2020-06-16

#CVPR2020

HybridPose： 6D Object Pose Estimation under Hybrid Representations

標題：HybridPose: 混合表示下的目標6D姿態估計 - [現已開源]

作者團隊：德州大學 (UT-Austin)

HybridPose，這是一種新穎的6D物件姿態估計方法。 HybridPose利用混合中間表示在輸入影象中表達不同的幾何資訊，包括關鍵點，邊緣向量和對稱對應關係。與單一表示相比，當一種型別的預測表示不準確時（例如，由於遮擋），我們的混合表示允許姿勢迴歸利用更多不同的特徵。 HybridPose利用強大的迴歸模組來濾除預測的中間表示中的異常值。可以透過相同的簡單神經網路預測所有中間表示，而不會犧牲整體效能。與SOTA的姿態估計方法相比，HybridPose在執行時間上具有優勢，並且準確性更高。例如，在Occlusion Linemod資料集上，我們的方法實現了30 fps的預測速度，平均ADD（-S）精度為79。2％，比當前的最新方法提高了67。4％。

［程式碼連結］：

［論文連結］：

#CVPR2020

LatentFusion： End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Estimation

標題：將目標重構和渲染用於未知目標的端到端目標姿態估計網路 - [即將開源]

作者團隊：華盛頓大學&英偉達 (NVIDIA)

當前的6D物件姿態估計方法通常需要為每個目標物件建立3D模型，這些方法還需要進行額外的訓練才能加入新的目標物件。結果導致無法滿足大量的未知目標預測的要求。華盛頓大學和英偉達聯合提出了一種新的用於未見過目標 6D姿態估計的框架。作者設計了一個端到端的神經網路，該網路使用少量目標的參考視角來重構目標的3D表示。使用學習到的3D表示，網路可以從任意視角對目標進行渲染。使用該神經網路渲染器，我們可以對輸入影象的姿勢直接進行最佳化。透過使用大量3D形狀訓練該網路進行重構和渲染，使該網路可以很好地推廣到未見過的目標。作者還為未知的物體姿態估計提供了一個新的資料集-MOPED。並且最後在MOPED以及ModelNet資料集上評估了未知物體姿態估計方法的效能。

［程式碼連結］：

［論文連結］：

#CVPR2020

MoreFusion： Multi-object Reasoning for 6D Pose Estimation from Volumetric Fusion

標題：MoreFusion：基於體積融合的6D位姿估計的多目標推理 - [程式碼已開源]

作者團隊：倫敦帝國學院 - 戴森(Dyson)機器人實驗室

機器人和其他智慧裝置需要依靠自身攜帶的視覺系統提供高效的基於物件的場景表達，以進行接觸、物理、遮擋等推理。已知的精確目標模型在未知結構的非引數化重建中起著十分重要的作用。我們提出了一種系統，該系統可以實時估計多視角場景中接觸和遮擋的多個已知物件的精確姿態。我們的方法從單個RGB-D檢視中估計3D物件姿勢proposals，隨著攝像機的移動，能夠從多個檢視中累積姿勢估計和非引數化的occupancy資訊，並執行聯合最佳化以對接觸的多個接觸目標進行一致非交叉的姿態估計。我們在2個物件資料集上透過實驗驗證了我們方法的準確性和魯棒性：分別在YCB-Video和我們自己富有挑戰性雜亂YCB-Video上對提出的方法進行了實驗。我們演示了一種實時機器人應用，其中機器人手臂僅使用其搭載的RGB-D獲取的資訊就可以準確有序地抓取複雜堆疊的物體。

［程式碼連結］：

［論文連結］：

#CVPR2020

EPOS：Estimating 6D Pose of Objects with Symmetries

標題：EPOS：使用對稱性估計物件的6D姿態 - [即將開源]

作者團隊：捷克理工大學 & MTA SZTAKI

他們提出了一種新方法，可以根據單張RGB輸入影象中的可用3D模型估算剛性物體的6D姿態。該方法適用於比較廣泛的物件，包括具有全域性或部分對稱性和具有挑戰性的物件。一個物體由緊湊的表面片段代表，這些片段可以系統地處理對稱性。使用編碼器-解碼器網路預測密集取樣的畫素與片段之間的對應關係。網路在每個畫素處預測：（i）每個object 存在的機率，（ii）給定 object 存在時片段的機率，以及（iii）每個片段上精確的3D位置。每個畫素選擇與資料相關的數量的相應3D位置，並使用PnP-RANSAC演算法強而有效的變體估算來估計可能存在的多個物件例項的姿態。在BOP Challenge 2019中，該方法優於T-LESS和LM-O資料集上的所有RGB以及大多數RGB-D和只使用 Depth方法。在YCB-Video資料集上，它優於所有競爭對手，與只使用RGB方法的第二名相比具有很大的優勢。

［論文連結］：

［主頁連結］：

#CVPR2020

G2L-Net： Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features

標題：全域性到區域性網路，利用嵌入向量特徵進行實時6D姿態估計 - [現已開源]

作者團隊：伯明翰大學 & 國防科技大學

在本文中，我們提出了一種新型實時6D目標姿態估計框架，稱為G2L-Net。我們的網路以分治的方式處理來自RGB-D檢測的點雲。具體來說，我們的網路包括三個步驟：第一步，透過2D檢測從目標物體的RGB-D影象中提取粗糙的點雲。第二步，將粗糙的目標點雲傳進平移定位網路，以執行3D語義分割和目標平移的預測。第三步，透過語義分割和平移的預測，將獲取的精細目標點雲轉換為區域性標準座標，在該座標中我們訓練旋轉定位網路以估計初始物體旋轉。在第三步中，我們定義點向嵌入特徵以捕獲視點感知資訊。為了計算更精確的旋轉，我們採用旋轉殘差估計器來估計初始旋轉和GT真實情況之間的殘差，這可以提高初始姿態估計的效能。儘管在從粗略到精細的框架上堆疊了多個步驟，但我們提出的G2L-Net依舊是實時的。在兩個基準資料集上進行的大量實驗表明，G2L-Net在準確率和速度方面均達到了SOTA的效能。 For a single object， given a 480 × 640 RGB-D image， PC environment （an Intel i7- 4930K 3。4GHz CPU and one GTX 1080 Ti GPU） - 23FPS

［論文連結］：

［程式碼連結］：

#CVPR2020

PVN3D： A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

標題：PVN3D: 基於 3D 關鍵點投票網路的 6DoF 姿態估計 - [現已開源]

作者團隊：香港科技大學 & 曠視科技 & 快手

在這項工作中，我們提出了一種新的資料驅動方法，用於從單個RGBD影象進行魯棒的6DoF物件姿態估計。與直接回歸姿態引數的先前方法不同，我們使用基於關鍵點的方法來解決這一具有挑戰性的任務。具體而言，我們提出了一種深度霍夫投票網路，以檢測物件的3D關鍵點，然後以最小二乘擬合的方式估算6D姿態引數。我們的方法是 2D 關鍵點方法的自然擴充套件，該方法成功地用於基於 RGB 的 6DoF 估計。它使我們能夠利用額外的深度資訊充分利用剛體的幾何約束，並且易於網路學習和最佳化。進行了廣泛的實驗，證明了 3D 關鍵點檢測在 6D 姿勢估計任務中的有效性。實驗結果還表明，我們的方法在幾個基準上都遠遠優於最新的 SOTA 方法。

［程式碼連結］：

［論文連結］：

#CVPR2020

Single-Stage 6D Object Pose Estimation

標題：PVN3D: 基於 3D 關鍵點投票網路的 6DoF 姿態估計 - [現已開源]

作者團隊：洛桑聯邦理工學院 - CVLab

最新的6D姿勢估計框架首先依靠深度網路在3D物件關鍵點和2D影象位置之間建立對應關係，然後使用基於RANSAC的Perspective-n-Point（PnP）演算法的變體。但是，此兩階段過程不是最佳的：首先，它不是端到端可訓練的。其次，訓練深度網路依賴於替代損失，該損失不會直接反映最終的6D姿態估計任務。在這項工作中，我們介紹了一種直接從對應關係中迴歸6D姿勢的深度架構。它為每個3D關鍵點輸入一組候選對應關係，並說明每個組內對應關係的順序無關緊要的事實，而各組（即3D關鍵點）的順序是固定的。我們的體系結構是通用的，因此可以與現有的對應關係提取網路一起使用，從而生成單階段6D姿態估計框架。我們的實驗表明，在準確性和速度方面，這些單階段框架始終優於其兩階段框架。

［程式碼連結］：

［論文連結］：