CVPR 2020 | MoCo自監督學習或成為CV領域的啟明燈

作者：由人工智慧熱點發表于舞蹈時間：2020-05-14

愷明大神CVPR2020中了4篇文章，其中3篇是Oral，我等只能膜拜了。這篇CVPR的工作是Facebook AI團隊何愷明等人的作品，提出了

基於動量對比的自監督方法，這是一種同時將資料樣本的字典存在佇列中而不是之前和mini-batch耦合的方式

，從而成功地將字典的大小和batch大小進行解耦，儘可能地增大了字典的大小以及一致性。實驗結果表明，MoCo使用無監督的方法，在多個CV資料集上取得了最優的效果。

在ImageNet資料集的表現上甚至已經接近有監督學習的效果。

一、概述

自監督學習在NLP領域已經取得了非常大的成就，BERT、GPT、XLNET等自監督模型幾乎刷遍了NLP各大榜單，同時在工業界也帶來了很多的進步。在CV領域，自監督似乎才剛剛興起。這篇文章是何愷明一作，目前已經中了CVPR的oral。文章核心思想是

使用基於contrastive learning的方式自監督的訓練一個圖片表示器也就是編碼器，能更好地對圖片進行編碼然後應用到下游任務中。

基於對比的自監督學習最大的問題就是負樣本數量增大後會帶來計算開銷的增大，kaiming大神在這裡使用了

基於佇列的動態字典來儲存樣本，同時又結合了動量更新編碼器的方式，解決了編碼器的快速變化會降低了鍵的表徵一致性問題。

MoCo在多個數據集上取得了最優效果，縮小了監督學習和無監督學習之間的差距。

二、模型詳解

基於對比的自監督學習其實就是訓練一個編碼器然後在一個大的字典裡確保和對應的鍵是相似的，和其它的是不相似的。所以字典的大小就成了關鍵，傳統的方法是字典的大小就是等於mini_batch的大小，

但是這種方法由於顯示卡和算力的問題導致其不能太大。

在這裡MoCo使用了佇列來儲存這個字典。在訓練的時候，每一個新的batch完成編碼後就進入佇列然後最老的那一個編碼就出佇列。

這樣保證了字典的大小和batch的大小解耦了，也就是說字典的大小可以遠遠大於batch的大小。

整體的模型架構見下圖：

圖1 模型結構

文章的目標函式採用InfoNCE，也就是當query和他的正向鍵值k相似和負向不相似，損失就會變小。而我們的目標就是最小化這個損失，公式詳見下圖：

圖2 loss公式

Momentum Contrast

作者採用的動量對比方法的兩個核心一個就是將字典作為佇列，另外一個就是動量更新。將字典作為佇列主要就是為了能將字典的大小和mini-batch分離開來。而動量更新主要是為了解決字典這部分資料在反向傳播的時候更新引數的問題，因為反向傳播需要在佇列中所有的樣本中進行傳播。在這裡作者使用了一種動量更新的方式緩慢平滑的更新引數，詳細的公式見下圖：