解讀 | 弱監督目標檢測新框架 OIM
導讀
本文針對弱監督目標檢測任務中,多例項學習方法容易忽略不那麼有判別性物體(影象中同一類物體可能不止一個),以及傾向於檢測物體例項一小部分的問題,提出基於
空間圖
和
外觀圖
的
端到端
的
物體例項挖掘
框架 OIM,並設計了
物體例項權重重定義損失
IR 幫助OIM檢測物體更大的部分。
論文標題
:Object Instance Mining for Weakly Supervised Object Detection(AAAI 2020)
論文地址
:
https://
arxiv。org/abs/2002。0108
7
關鍵詞
Weakly supervised object detection (WSOD)
弱監督目標檢測
end-to-end
本文提出的是一個端到端框架
object instance mining (OIM)
本文提出的方法是目標例項挖掘 OIM
multiple instance detector (MID)
OIM 包括多例項檢測器
spatial and appearance graphs
OIM 採用了空間圖和外觀圖
object instance reweighted loss(IR)
作者設計的損失
難點
OIM 過程的理解
問題/背景/現狀
本文研究的內容是弱監督目標檢測問題 WSOD。常用的多例項學習
MIL
方法容易陷入區域性最優的困境,因為這個機制傾向於學習
有區別性的物體
,會錯過一些不那麼有判別性的物體從而減弱了檢測效能。
本文要解決兩個問題:
一幅圖中可能有多個同類物體,而 MIL 類方法通常
挖掘某類最可靠的物件例項
,而不考慮影象中例項的數目。對於具有來自同一個類的
多個物件例項
的影象,具有較低分數的物件例項可能被視為背景區域。
最可靠的 proposal 很容易集中於物件的區域性,特別是對於人類和動物等非剛性物件。這可能會導致
只檢測到物體的一小部分
的問題。
針對同一類的多物件例項問題——
本文提出的
端到端的 OIM 框架
就是是為了解決 WSOD 問題中的多例項問題。
OIM基於兩個基本假設:
置信度最高的 proposal 及其周圍高度重疊的 proposal 可能屬於同一類;
同一類的物件應具有較高的外觀相似度。
這兩個假設不太直觀,稍後會解釋。
因此,作者用空間圖(spatial graph)描述空間關係,外觀圖(appearance graph)描述相似性。
透過將這兩個圖整合到迭代訓練過程中,提出了一種僅在影象級監督下精確挖掘每個影象中所有可能物件例項的 OIM 方法。訓練的物件例項越多,CNN分類器的識別能力和泛化能力就越強。
針對 CNN 只能檢測到一小部分的問題——
作者提出了一種基於空間圖的物件例項重加權損失演算法,以幫助網路檢測出更精確的邊界,關注物體例項的更大的區域。
貢獻
提出了一種使用空間和外觀圖的物件例項挖掘方法,僅使用影象級註釋挖掘所有可能的物件例項,提高 CNN 的判別力。
為了學習更準確的 CNN 分類器,提出了一個 object instance reweighted loss 調整不同例項的損失函式的權重。
方法
1。 框架
圖 2 是提出的 OIM 框架。
在這裡插入圖片描述
框架包含兩部分
:
-
multiple instance detector (MID)
類似於 2016 年提出的的 WSSDN,用 MIL pooling 同時完成定位和分類任務。
-
object instance mining(OIM)
+
object instance reweighted loss
訓練流程
(我在圖中標註了序號):
用 MID 給候選區域分類
檢測結果和 proposal 的特徵結合,用空間圖和外觀圖搜尋影象中同一類物體的所有可能例項。
2。 多例項挖掘
圖 3 是多例項挖掘的過程圖。
這個圖可以直觀解釋以前方法的問題,以及作者提出的假設。
藍色框為 core proposal,它的置信分數最高,它是最有可能的,最具判別力的 bounding box,以前的方法傾向於選擇它,而忽略那些沒這麼明顯的 proposal。
再看文中提到的假設一,和這個藍色框有高度重疊的一些 proposal 屬於同一類。如 圖(a)中包含汽車一部分的那些 proposal,這些框和中間那個框高度重疊,很可能就是這個例項的一部分,所以它們應該是一類,圖中用藍色實線表示它們的空間關係。
再看假設二,外觀和 core proposal 高度相似的 proposal 和它屬於一類。例如圖(b)中的紅色框中的物體都和藍框的一部分相似,都是輪胎,所以他們很可能是一類物體。其中相似性用區域特徵向量的距離表示。
可以看出,中間的框住中間那輛車的 proposal 最具判別力,而只框住物體一部分的 proposal 就不太具有判別力,以前的方法很容易忽視它們,從而降低檢測效能。現在有了
空間圖
和
外觀圖
的概念,就是為了考慮到這些物體。
以下是基於空間圖和外觀圖的多例項挖掘方法:
3。 例項權重重定義損失
Instance Reweighted Loss 用於解決
模型只能檢測物體一小部分
的問題。直觀上理解,輸出的框只框住物體的一部分,沒有全部包括。
作者提出賦予不同區域不同權重的方法,平衡高分 proposal 和 周圍分辨力不強的 proposal 的權重。一般高分 proposal 的權重高。
為了引導網路更多地關注學習每個圖中物件例項的不明顯的域,我們使用公式 4 和公式 5 平衡了周圍不明顯區域的權重和中心區域的權重。
這兩個公式,重點看(5)。
是中心區域的有判別性的 proposal 的序號,這裡用變數 j 遍歷所有的 proposal。如果是中心那個,就把它的權重 β 減一;如果是周圍不明顯的那些,權重 β 不變。
這樣做的結果就是,周圍那些不明顯區域的權重,
相當於
在原來的基礎上加一,變為(β+1),這樣就能讓網路多考慮這種 proposal。
實驗結果
這裡就貼兩張結果圖,可以看出本文提出的方法與 SOTA 方法相比,很有競爭力。
關注公眾號
上一篇:從n1到口筆譯三級有多難?
下一篇:學生黨偏瘦如何練肌肉?