無監督自監督半監督目標檢測方法（下）

作者：由黃浴發表于文化時間：2021-04-01

已發表在：

繼續。。。

5 “Instant-Teaching： An End-to-End Semi-Supervised Object Detection Framework“，arXiv 2103。11402，3，2021

還是半監督方法，Instant-Teaching，和STAC（“

A simple semi-supervised learning framework for object detection

“）一樣，在每個訓練迭代採用擴充套件weak-strong data augmentations，做instant pseudo labeling。STAC的示意圖見下面：

STAC

方法有一些問題：1）訓練程式複雜低效，需要先訓練一個teacher model；2）模型訓練時候偽標註不能更新，限制其效能。

而Instant-Teaching的示意圖如下：

類似STAC，用 Faster-RCNN、PN和ResNet-50構建。如圖是DA mixup和mosaic示意圖：

採用co-rectify scheme，即Instant-Teaching*，它同時訓練兩個一樣結構的模型，但分享權重，互相幫助矯正錯誤預測。

實驗結果比較如下：

6 “Meta-DETR： Few-Shot Object Detection via Unified Image-Level Meta-Learning“，arXiv2103。11731，3，2021

少樣本檢測FSD是採用很少的標註資料檢測新目標。meta-learning證明是一個FSD有希望解法，主要是區域級的分類和定位微調。而提出的Meta-DETR，是影象級的定位和分類meta-learning方式。它對support and query images 編碼為category-specific features，然後進入一個category-agnostic 解碼器產生特定類的預測。為此作者設計了一個簡單有效的Semantic Alignment Mechanism （SAM），能將高階和低階特徵語義校準，以此提高meta-learning表示的泛化能力。

注：少樣本仍然是監督的，即使是one-shot；而zero-shot 零樣本是無監督。

Meta learning其實就是在“學習如何學習”的指導思想下，提取meta-level的知識，以此泛化到各種任務中。少樣本目標檢測一般採用meta learning和transfer learning。如圖是目前一些meta learning的目標檢測方法對比：Meta-YOLO、Meta-Region、FSOD等

Meta-DETR 推廣了基於Transformer 編碼器-解碼器網路的DETR frameworks，其設計的架構如下圖：

其包括Query Encoding Branch （QEB）， Support Encoding Branch （SEB）和Decoding Branch （DB）。QEB 接受查詢影象，透過特徵提取器和transformer encoder產生查詢特徵。SEB和QEB共享特徵，提取support images的支援類碼。給定帶一個支援類碼的查詢特徵，DB 先聚合成一個category-specific features，然後用於category agnostic transformer decoder 預測相應支援類的檢測。

下圖是Semantic Alignment Mechanism （SAM）的細節：其中residual connection相當於自正則化，防止依賴於不希望的category-specific features。

另外還有兩個框圖：DB的Aggregator和feed-forward network （FFN）。

訓練分兩步：一是基於訓練影象對每個基本類（base category）訓練模型；二是少樣本微調，基於有限標註樣本訓練基本類和新類。

實驗結果比較如下：

7 “MonoRUn： Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation“，arXiv 2103。12605，3，2021

MonoRUn是一個具有簡單3D bounding box 標註的檢測框架，以

自監督

方式學習dense correspondences 和 geometry，在迴歸3-D目標座標時採用了一個具有不確定性覺察的區域重建網路。訓練中提出一個Robust KL loss最小化不確定性加權的投影誤差，而檢測中會將不確定性（aleatoric uncertainty）傳播到下游模組，特別的uncertainty-driven PnP能夠估計目標姿態和方差矩陣。

如圖是3-D重建的不確定性示意圖：

上傳程式碼：

https：//

github。com/tjiiv-cprg/M

onoRUn

MonoRUn的訓練測試流水線圖如下：給定攝像機模型和姿態真值GT

這裡有兩個分支：一是global extractor，提取目標全域性理解的資訊，二是NOC（normalized object coordinates）decoder，預測NOC map。提取的global latent vector幫助decoder，透過關於目標occlusion， truncation 和 shape 線索，也給了不確定性估計。

兩個分支的網路細節如下：這裡MLP score head估計檢測分數。

網路訓練設定分三種：

Fully Self-Supervised Reconstruction 自監督模式

LiDAR Supervision 其中NOC loss用鐳射雷達真值

End-to-End Training 其中藉助PnP BP方法，計算平移和旋轉的誤差。該方法不穩定，可以做方法1的修正。

實驗結果比較如下表：

8 “Multi-Target Domain Adaptation via Unsupervised Domain Classification for Weather Invariant Object Detection“，arXiv 2103。13970，3，2021

大家知道domain adaptation很難針對多個domain，這裡給出無監督domain classification，這樣可以得到天氣不變性的目標檢測。

domain adaptation開發域不變的資料結構，採用遷移學習，減輕不同域資料分佈的區別。訓練一個style transfer模型，從各個混合（天氣）域提取style features。k-means聚類將影象分成不同天氣的類，訓練的source-target domain style transfer models可以產生目標域的標註影象，最後是訓練一個weather-invariant object detector。

domain adaptation方法一般分兩種：一種是GAN，另一種是style transfer。作者採用MUNIT，一種“影象-2-影象翻譯”框架。如下就是MUNIT做style transfer的例子：