您當前的位置:首頁 > 歷史

重新認識影象分類模型

作者:由 mileistone 發表于 歷史時間:2020-03-11

Network In Network是影象分類模型中第一個使用GAP替換FC+dropout的方法,從此之後的分類模型全都開始使用GAP方案。也就是圖1所示的樣子。

重新認識影象分類模型

圖1、分類模型結構簡圖

將圖1中的GAP去掉,同時將FC層轉換為1x1的conv(權重從FC裡直接複製過來),得到圖2所示的樣子。

重新認識影象分類模型

圖2、分類模型變體

對於一個透過圖1方式來訓練得到的分類器,可以轉換為圖2的形式。透過圖2方式,分類器變成了語意分割模型,透過該模型,我們不僅可以對一張影象進行分類(即,這張影象是否包含什麼物體),還能可以該定位出該影象中的物體(即,該物體在影象哪個地方),這就是

CAM

的原理。

按照我們的直觀感受,圖1方式的GAP應該會讓分類器丟掉位置資訊,而且分類器的label也不包含位置資訊。為什麼圖1方式訓練的模型,轉換為圖2方式的時候,卻能獲取位置資訊呢?

答案藏在圖1和圖2中。

剛剛的情況是圖1方式訓練,預測的時候轉換成圖2方式。如果我們直接透過圖2方式進行訓練,預測的時候依然用圖2方式呢?

這個時候,分類任務就類似語意分割任務,舉個例子:訓練集中有一張影象A,類別是貓,1x1 conv輸出的feature map大小為7x7,每個cell的label都是貓。每個cell對應到原圖中一個patch(透過感受野可以對回去),圖1方式訓練的時候,對全圖進行分類;圖2方式訓練,則是對每個patch進行分類,誒,位置資訊有了。

但是這帶來了一個新問題,圖2方式訓練的時候,7x7一共49個patch的label都是貓,實際情況是,整張圖中不完全都是貓,往往只有一部分是貓,其他部分是背景。

直覺來看似乎有問題——label中有noise。這個時候我們聯想到

multiple instance learning

In machine learning, multiple-instance learning (MIL) is a type of supervised learning。 Instead of receiving a set of instances which are individually labeled, the learner receives a set of labeled bags, each containing many instances。

In the simple case of multiple-instance binary classification, a bag may be labeled negative if all the instances in it are negative。 On the other hand, a bag is labeled positive if there is at least one instance in it which is positive。

From a collection of labeled bags, the learner tries to either (i) induce a concept that will label individual instances correctly or (ii) learn how to label bags without inducing the concept。

圖2方式訓練的時候,這就是multiple instance learning問題,另外分類任務一般目標物體在全圖中佔比較高,噪聲比例不會太大,學習不會太困難。

如果圖1方式和圖2方式等價,那麼剛剛的問題“為什麼圖1方式訓練的模型,轉換為圖2方式的時候,卻能獲取位置資訊呢?”就解決了。

遺憾的是圖1方式訓練和圖2方式訓練並不等價,但是二者存在較大的內在聯絡,I conjecture 圖1方式訓練的模型具備定位能力的原理與圖2方式類似。

標簽: 方式  訓練  label  模型  instance