無監督自監督半監督目標檢測方法(下)
已發表在:
繼續。。。
5 “Instant-Teaching: An End-to-End Semi-Supervised Object Detection Framework“,arXiv 2103。11402,3,2021
還是半監督方法,Instant-Teaching,和STAC(“
A simple semi-supervised learning framework for object detection
“)一樣,在每個訓練迭代採用擴充套件weak-strong data augmentations,做instant pseudo labeling。STAC的示意圖見下面:
STAC
方法有一些問題:1)訓練程式複雜低效,需要先訓練一個teacher model;2)模型訓練時候偽標註不能更新,限制其效能。
而Instant-Teaching的示意圖如下:
類似STAC,用 Faster-RCNN、PN和ResNet-50構建。如圖是DA mixup和mosaic示意圖:
採用co-rectify scheme,即Instant-Teaching*,它同時訓練兩個一樣結構的模型,但分享權重,互相幫助矯正錯誤預測。
實驗結果比較如下:
6 “Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning“,arXiv2103。11731,3,2021
少樣本檢測FSD是採用很少的標註資料檢測新目標。meta-learning證明是一個FSD有希望解法,主要是區域級的分類和定位微調。而提出的Meta-DETR,是影象級的定位和分類meta-learning方式。它對support and query images 編碼為category-specific features,然後 進入一個category-agnostic 解碼器產生特定類的預測。為此作者設計了一個簡單有效的Semantic Alignment Mechanism (SAM),能將高階和低階特徵語義校準,以此提高meta-learning表示的泛化能力。
注:少樣本仍然是監督的,即使是one-shot;而zero-shot 零樣本是無監督。
Meta learning其實就是在“學習如何學習”的指導思想下,提取meta-level的知識,以此泛化到各種任務中。少樣本目標檢測一般採用meta learning和transfer learning。如圖是目前一些meta learning的目標檢測方法對比:Meta-YOLO、Meta-Region、FSOD等
Meta-DETR 推廣了基於Transformer 編碼器-解碼器網路的DETR frameworks,其設計的架構如下圖:
其包括Query Encoding Branch (QEB), Support Encoding Branch (SEB)和Decoding Branch (DB)。QEB 接受查詢影象,透過特徵提取器和transformer encoder產生查詢特徵。SEB和QEB共享特徵,提取support images的支援類碼。給定帶一個支援類碼的查詢特徵,DB 先聚合成一個category-specific features,然後用於category agnostic transformer decoder 預測相應支援類的檢測。
下圖是Semantic Alignment Mechanism (SAM)的細節:其中residual connection相當於自正則化,防止依賴於不希望的category-specific features。
另外還有兩個框圖:DB的Aggregator和feed-forward network (FFN) 。
訓練分兩步:一是基於訓練影象對每個基本類(base category)訓練模型;二是少樣本微調, 基於有限標註樣本訓練基本類和新類。
實驗結果比較如下:
7 “MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation“,arXiv 2103。12605,3,2021
MonoRUn是一個具有簡單3D bounding box 標註的檢測框架,以
自監督
方式學習dense correspondences 和 geometry,在迴歸3-D目標座標時採用了一個具有不確定性覺察的區域重建網路。訓練中提出一個Robust KL loss最小化不確定性加權的投影誤差,而檢測中會將不確定性(aleatoric uncertainty)傳播到下游模組,特別的uncertainty-driven PnP能夠估計目標姿態和方差矩陣。
如圖是3-D重建的不確定性示意圖:
上傳程式碼:
https://
github。com/tjiiv-cprg/M
onoRUn
MonoRUn的訓練測試流水線圖如下:給定攝像機模型和姿態真值GT
這裡有兩個分支:一是global extractor,提取目標全域性理解的資訊,二是NOC(normalized object coordinates)decoder,預測NOC map。提取的global latent vector幫助decoder,透過關於目標occlusion, truncation 和 shape 線索,也給了不確定性估計。
兩個分支的網路細節如下:這裡MLP score head估計檢測分數。
網路訓練設定分三種:
Fully Self-Supervised Reconstruction 自監督模式
LiDAR Supervision 其中NOC loss用鐳射雷達真值
End-to-End Training 其中藉助PnP BP方法,計算平移和旋轉的誤差。該方法不穩定,可以做方法1的修正。
實驗結果比較如下表:
8 “Multi-Target Domain Adaptation via Unsupervised Domain Classification for Weather Invariant Object Detection“,arXiv 2103。13970,3,2021
大家知道domain adaptation很難針對多個domain,這裡給出無監督domain classification,這樣可以得到天氣不變性的目標檢測。
domain adaptation開發域不變的資料結構,採用遷移學習,減輕不同域資料分佈的區別。訓練一個style transfer模型,從各個混合(天氣)域提取style features。k-means聚類將影象分成不同天氣的類,訓練的source-target domain style transfer models可以產生目標域的標註影象,最後是訓練一個weather-invariant object detector。
domain adaptation方法一般分兩種:一種是GAN,另一種是style transfer。作者採用MUNIT,一種“影象-2-影象翻譯”框架。如下就是MUNIT做style transfer的例子:
而本文的style transfer模型訓練分四步,如圖所示:
實驗結果比較如下:
關於無監督域分類結果:
——完——-
上一篇:馬新林—持滿戒盈 匠心獨出