基於深度學習的雙目匹配和視差估計
前段時間討論單目估計視差/深度,感覺雙目是不是沒有存在的價值呢:)
。。。起個題目。。。
“
End-to-End Learning of Geometry and Context for Deep Stereo Regression
“,ICCV 2017
一個迴歸網路估計視差的方法。它充分利用幾何特性和上下文約束,實現了一個端到端的視差圖計算。下圖是定義的GC-Net網路框圖,上下文在3D卷積中體現,而幾何特性在左右影象合併在成本容積(cost volume)時候引入。
GC-Net (Geometry and Context Network)
GC-Ne的結構見下面列出的表格:
Summary of our end-to-end deep stereo regression architecture, GC-Net
。。。待續。。。
“Self-Supervised Learning for Stereo Matching with Self-Improving Ability“, Sep。 2017
Residually connected Top-Down Module (Res-TDM)
。。。待續。。。
“Unsupervised Learning of Stereo Matching“, ICCV, 2017
無監督學習的網路,隨機初始化網路在迭代過程中更新引數並收斂到一個穩定估計。其網路結構如下:輸入立體影象,輸出是視差圖,網路分兩個分支,其中一個是計算成本容積,另一個做容積濾波。
下圖是其迭代無監督訓練網路結構,包括視差預測,可信度估計,訓練資料選擇和網路訓練等4部分。
“Pyramid Stereo Matching Network”, CVPR 2018
提出一個PSM-Net,即金字塔立體匹配網路,包括兩部分(下圖所示),空間金字塔池化(spatial pyramid pooling,SPP)和 3D CNN。前者將不同尺度和位置的上下文資訊整合構成一個容積,可充分利用全域性上下文資訊;3D CNN 透過多個疊加的沙漏網路學習如何規則化成本容積(cost volume)。
下表是網路引數:
。。。待續。。。
“Learning for Disparity Estimation through Feature Constancy” , CVPR 2018
。。。待續。。。
“Deep Material-aware Cross-spectral Stereo Matching”, CVPR 2018
。。。待續。。。
“SegStereo: Exploiting Semantic Information for Disparity”, ECCV, 2018
採用語義特徵嵌入(semantic feature embedding ),並規則化語義線索成為新損失項來提高視差學習的效能。注:該模型SegStereo可以在監督和非監督模式下工作。
如圖是SegStereo架構:左分割特徵圖聚合一起進入視差分支成為語義特徵嵌入,右分割特徵圖變化到左視角後用softmax損失規則化做語義預測。SegStereo網路採用光度或者視差迴歸損失完成監督和非監督學習。
unsupervised
supervised
。。。待續。。。
“DispSegNet: Leveraging Semantics for End-to-End Learning of Disparity Estimation from Stereo Imagery”, 1809。04734, 2019
也是利用語義資訊,只是透過分割的方式,其中視差估計和語義分割兩個任務高度耦合。DispSegNet採用兩步細化過程:開始初始化的視差被語義分割網路細化,模型是無監督訓練得到,其中立體影象對透過變換計算光度誤差。
以下是其結構圖:整個流水線包括 (a) 矯正過的立體影象。 (b) 提取特徵。 (c)把對應特徵串聯在一起構成成本容積。 (d)用3D卷積從成本容積得到初始視差。 (e) 初始視差融合分割嵌入(segment embedding)進行改進。 這裡
PSP
(
Pyramid scene parsing
)結合更多上下文資訊完成語義分割任務。 (f) 輸出估計的視差和語義分割。
。。。待續。。。
“Group-wise Correlation Stereo Network”, CVPR 2019
group-wise correlation network
3D aggregation network
。。。待續。。。
總結
。。。待續。。。
下一篇:油皮和混油皮怎樣區分呀?