您當前的位置:首頁 > 文化

無監督自監督半監督目標檢測方法(下)

作者:由 黃浴 發表于 文化時間:2021-04-01

已發表在:

繼續。。。

5 “Instant-Teaching: An End-to-End Semi-Supervised Object Detection Framework“,arXiv 2103。11402,3,2021

還是半監督方法,Instant-Teaching,和STAC(“

A simple semi-supervised learning framework for object detection

“)一樣,在每個訓練迭代採用擴充套件weak-strong data augmentations,做instant pseudo labeling。STAC的示意圖見下面:

無監督自監督半監督目標檢測方法(下)

STAC

方法有一些問題:1)訓練程式複雜低效,需要先訓練一個teacher model;2)模型訓練時候偽標註不能更新,限制其效能。

而Instant-Teaching的示意圖如下:

無監督自監督半監督目標檢測方法(下)

類似STAC,用 Faster-RCNN、PN和ResNet-50構建。如圖是DA mixup和mosaic示意圖:

無監督自監督半監督目標檢測方法(下)

採用co-rectify scheme,即Instant-Teaching*,它同時訓練兩個一樣結構的模型,但分享權重,互相幫助矯正錯誤預測。

實驗結果比較如下:

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

6 “Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning“,arXiv2103。11731,3,2021

少樣本檢測FSD是採用很少的標註資料檢測新目標。meta-learning證明是一個FSD有希望解法,主要是區域級的分類和定位微調。而提出的Meta-DETR,是影象級的定位和分類meta-learning方式。它對support and query images 編碼為category-specific features,然後 進入一個category-agnostic 解碼器產生特定類的預測。為此作者設計了一個簡單有效的Semantic Alignment Mechanism (SAM),能將高階和低階特徵語義校準,以此提高meta-learning表示的泛化能力。

注:少樣本仍然是監督的,即使是one-shot;而zero-shot 零樣本是無監督。

Meta learning其實就是在“學習如何學習”的指導思想下,提取meta-level的知識,以此泛化到各種任務中。少樣本目標檢測一般採用meta learning和transfer learning。如圖是目前一些meta learning的目標檢測方法對比:Meta-YOLO、Meta-Region、FSOD等

無監督自監督半監督目標檢測方法(下)

Meta-DETR 推廣了基於Transformer 編碼器-解碼器網路的DETR frameworks,其設計的架構如下圖:

無監督自監督半監督目標檢測方法(下)

其包括Query Encoding Branch (QEB), Support Encoding Branch (SEB)和Decoding Branch (DB)。QEB 接受查詢影象,透過特徵提取器和transformer encoder產生查詢特徵。SEB和QEB共享特徵,提取support images的支援類碼。給定帶一個支援類碼的查詢特徵,DB 先聚合成一個category-specific features,然後用於category agnostic transformer decoder 預測相應支援類的檢測。

下圖是Semantic Alignment Mechanism (SAM)的細節:其中residual connection相當於自正則化,防止依賴於不希望的category-specific features。

無監督自監督半監督目標檢測方法(下)

另外還有兩個框圖:DB的Aggregator和feed-forward network (FFN) 。

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

訓練分兩步:一是基於訓練影象對每個基本類(base category)訓練模型;二是少樣本微調, 基於有限標註樣本訓練基本類和新類。

實驗結果比較如下:

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

7 “MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation“,arXiv 2103。12605,3,2021

MonoRUn是一個具有簡單3D bounding box 標註的檢測框架,以

自監督

方式學習dense correspondences 和 geometry,在迴歸3-D目標座標時採用了一個具有不確定性覺察的區域重建網路。訓練中提出一個Robust KL loss最小化不確定性加權的投影誤差,而檢測中會將不確定性(aleatoric uncertainty)傳播到下游模組,特別的uncertainty-driven PnP能夠估計目標姿態和方差矩陣。

如圖是3-D重建的不確定性示意圖:

無監督自監督半監督目標檢測方法(下)

上傳程式碼:

https://

github。com/tjiiv-cprg/M

onoRUn

MonoRUn的訓練測試流水線圖如下:給定攝像機模型和姿態真值GT

無監督自監督半監督目標檢測方法(下)

這裡有兩個分支:一是global extractor,提取目標全域性理解的資訊,二是NOC(normalized object coordinates)decoder,預測NOC map。提取的global latent vector幫助decoder,透過關於目標occlusion, truncation 和 shape 線索,也給了不確定性估計。

兩個分支的網路細節如下:這裡MLP score head估計檢測分數。

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

網路訓練設定分三種:

Fully Self-Supervised Reconstruction 自監督模式

LiDAR Supervision 其中NOC loss用鐳射雷達真值

End-to-End Training 其中藉助PnP BP方法,計算平移和旋轉的誤差。該方法不穩定,可以做方法1的修正。

實驗結果比較如下表:

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

8 “Multi-Target Domain Adaptation via Unsupervised Domain Classification for Weather Invariant Object Detection“,arXiv 2103。13970,3,2021

大家知道domain adaptation很難針對多個domain,這裡給出無監督domain classification,這樣可以得到天氣不變性的目標檢測。

domain adaptation開發域不變的資料結構,採用遷移學習,減輕不同域資料分佈的區別。訓練一個style transfer模型,從各個混合(天氣)域提取style features。k-means聚類將影象分成不同天氣的類,訓練的source-target domain style transfer models可以產生目標域的標註影象,最後是訓練一個weather-invariant object detector。

domain adaptation方法一般分兩種:一種是GAN,另一種是style transfer。作者採用MUNIT,一種“影象-2-影象翻譯”框架。如下就是MUNIT做style transfer的例子:

無監督自監督半監督目標檢測方法(下)

而本文的style transfer模型訓練分四步,如圖所示:

無監督自監督半監督目標檢測方法(下)

實驗結果比較如下:

無監督自監督半監督目標檢測方法(下)

無監督自監督半監督目標檢測方法(下)

關於無監督域分類結果:

無監督自監督半監督目標檢測方法(下)

——完——-

標簽: 訓練  Learning  Meta  category