重新認識影象分類模型

作者：由 mileistone 發表于歷史時間：2020-03-11

Network In Network是影象分類模型中第一個使用GAP替換FC+dropout的方法，從此之後的分類模型全都開始使用GAP方案。也就是圖1所示的樣子。

圖1、分類模型結構簡圖

將圖1中的GAP去掉，同時將FC層轉換為1x1的conv（權重從FC裡直接複製過來），得到圖2所示的樣子。

圖2、分類模型變體

對於一個透過圖1方式來訓練得到的分類器，可以轉換為圖2的形式。透過圖2方式，分類器變成了語意分割模型，透過該模型，我們不僅可以對一張影象進行分類（即，這張影象是否包含什麼物體），還能可以該定位出該影象中的物體（即，該物體在影象哪個地方），這就是

CAM

的原理。

按照我們的直觀感受，圖1方式的GAP應該會讓分類器丟掉位置資訊，而且分類器的label也不包含位置資訊。為什麼圖1方式訓練的模型，轉換為圖2方式的時候，卻能獲取位置資訊呢？

答案藏在圖1和圖2中。

剛剛的情況是圖1方式訓練，預測的時候轉換成圖2方式。如果我們直接透過圖2方式進行訓練，預測的時候依然用圖2方式呢？

這個時候，分類任務就類似語意分割任務，舉個例子：訓練集中有一張影象A，類別是貓，1x1 conv輸出的feature map大小為7x7，每個cell的label都是貓。每個cell對應到原圖中一個patch（透過感受野可以對回去），圖1方式訓練的時候，對全圖進行分類；圖2方式訓練，則是對每個patch進行分類，誒，位置資訊有了。

但是這帶來了一個新問題，圖2方式訓練的時候，7x7一共49個patch的label都是貓，實際情況是，整張圖中不完全都是貓，往往只有一部分是貓，其他部分是背景。

直覺來看似乎有問題——label中有noise。這個時候我們聯想到

multiple instance learning

。

In machine learning， multiple-instance learning （MIL） is a type of supervised learning。 Instead of receiving a set of instances which are individually labeled， the learner receives a set of labeled bags， each containing many instances。

In the simple case of multiple-instance binary classification， a bag may be labeled negative if all the instances in it are negative。 On the other hand， a bag is labeled positive if there is at least one instance in it which is positive。

From a collection of labeled bags， the learner tries to either （i） induce a concept that will label individual instances correctly or （ii） learn how to label bags without inducing the concept。

圖2方式訓練的時候，這就是multiple instance learning問題，另外分類任務一般目標物體在全圖中佔比較高，噪聲比例不會太大，學習不會太困難。

如果圖1方式和圖2方式等價，那麼剛剛的問題“為什麼圖1方式訓練的模型，轉換為圖2方式的時候，卻能獲取位置資訊呢？”就解決了。

遺憾的是圖1方式訓練和圖2方式訓練並不等價，但是二者存在較大的內在聯絡，I conjecture 圖1方式訓練的模型具備定位能力的原理與圖2方式類似。

標簽：方式訓練 label 模型 instance

上一篇:影象分割技巧之評估，交叉訓練，整合方法和後期處理

下一篇：機器學習，咱先從過擬合與欠擬合講起