您當前的位置:首頁 > 攝影

基於深度學習的雙目匹配和視差估計

作者:由 黃浴 發表于 攝影時間:2019-05-09

前段時間討論單目估計視差/深度,感覺雙目是不是沒有存在的價值呢:)

。。。起個題目。。。

End-to-End Learning of Geometry and Context for Deep Stereo Regression

“,ICCV 2017

一個迴歸網路估計視差的方法。它充分利用幾何特性和上下文約束,實現了一個端到端的視差圖計算。下圖是定義的GC-Net網路框圖,上下文在3D卷積中體現,而幾何特性在左右影象合併在成本容積(cost volume)時候引入。

基於深度學習的雙目匹配和視差估計

GC-Net (Geometry and Context Network)

GC-Ne的結構見下面列出的表格:

基於深度學習的雙目匹配和視差估計

Summary of our end-to-end deep stereo regression architecture, GC-Net

。。。待續。。。

“Self-Supervised Learning for Stereo Matching with Self-Improving Ability“, Sep。 2017

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

Residually connected Top-Down Module (Res-TDM)

基於深度學習的雙目匹配和視差估計

。。。待續。。。

“Unsupervised Learning of Stereo Matching“, ICCV, 2017

無監督學習的網路,隨機初始化網路在迭代過程中更新引數並收斂到一個穩定估計。其網路結構如下:輸入立體影象,輸出是視差圖,網路分兩個分支,其中一個是計算成本容積,另一個做容積濾波。

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

下圖是其迭代無監督訓練網路結構,包括視差預測,可信度估計,訓練資料選擇和網路訓練等4部分。

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

“Pyramid Stereo Matching Network”, CVPR 2018

提出一個PSM-Net,即金字塔立體匹配網路,包括兩部分(下圖所示),空間金字塔池化(spatial pyramid pooling,SPP)和 3D CNN。前者將不同尺度和位置的上下文資訊整合構成一個容積,可充分利用全域性上下文資訊;3D CNN 透過多個疊加的沙漏網路學習如何規則化成本容積(cost volume)。

基於深度學習的雙目匹配和視差估計

下表是網路引數:

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

。。。待續。。。

“Learning for Disparity Estimation through Feature Constancy” , CVPR 2018

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

。。。待續。。。

“Deep Material-aware Cross-spectral Stereo Matching”, CVPR 2018

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

。。。待續。。。

“SegStereo: Exploiting Semantic Information for Disparity”, ECCV, 2018

採用語義特徵嵌入(semantic feature embedding ),並規則化語義線索成為新損失項來提高視差學習的效能。注:該模型SegStereo可以在監督和非監督模式下工作。

如圖是SegStereo架構:左分割特徵圖聚合一起進入視差分支成為語義特徵嵌入,右分割特徵圖變化到左視角後用softmax損失規則化做語義預測。SegStereo網路採用光度或者視差迴歸損失完成監督和非監督學習。

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

unsupervised

基於深度學習的雙目匹配和視差估計

supervised

。。。待續。。。

“DispSegNet: Leveraging Semantics for End-to-End Learning of Disparity Estimation from Stereo Imagery”, 1809。04734, 2019

也是利用語義資訊,只是透過分割的方式,其中視差估計和語義分割兩個任務高度耦合。DispSegNet採用兩步細化過程:開始初始化的視差被語義分割網路細化,模型是無監督訓練得到,其中立體影象對透過變換計算光度誤差。

以下是其結構圖:整個流水線包括 (a) 矯正過的立體影象。 (b) 提取特徵。 (c)把對應特徵串聯在一起構成成本容積。 (d)用3D卷積從成本容積得到初始視差。 (e) 初始視差融合分割嵌入(segment embedding)進行改進。 這裡

PSP

Pyramid scene parsing

)結合更多上下文資訊完成語義分割任務。 (f) 輸出估計的視差和語義分割。

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

基於深度學習的雙目匹配和視差估計

。。。待續。。。

“Group-wise Correlation Stereo Network”, CVPR 2019

基於深度學習的雙目匹配和視差估計

group-wise correlation network

基於深度學習的雙目匹配和視差估計

3D aggregation network

基於深度學習的雙目匹配和視差估計

。。。待續。。。

總結

。。。待續。。。

標簽: 視差  待續  語義  stereo  網路