您當前的位置:首頁 > 攝影

跨圖片畫素級對比學習

作者:由 殘血的三井壽 發表于 攝影時間:2022-06-24

跨圖片畫素級對比學習

ICCV的工作,基於跨影象畫素對比學習的語義分割。

跨圖片畫素級對比學習

作者提出一種新的全監督的語義正規化,稱之為畫素對比學習。其核心思想是利用訓練集中跨影象的畫素與畫素之間的對比關係,來學習一個結構化的特徵空間,替換傳統的基於單幅影象的訓練正規化。其優點在於其可以直接用於主流的語義分割模型,在模型的訓練過程中不會引入額外的開銷。

跨圖片畫素級對比學習

語義分割模型的目的在於為圖片中的每個畫素預測一個標籤。大量演算法旨在捕捉影象的上下文資訊進而提升語義分割的效能。主要從兩個方面入手,

第一個是提出不同的上下文聚合模組(空洞卷積,自注意力模組),其思想是利用額外的模型引數或者特殊的操作提取影象內的上下文資訊。但是這些演算法大多數將語義分割視為一個畫素級分類任務,但是完全忽略了畫素間的依賴關係。

儘管有的方法確實提出一些解決措施幫助模型捕捉單個圖片中各個畫素點之間的依賴關係。

但是現有的方法就僅僅關注單個圖片內部的關係,忽略了訓練集中全域性上下文資訊,跨影象的語義相關性。這就導致這些演算法無法從整體的角度對語義特徵空間進行約束,進而限制了語義分割的效能。

跨圖片畫素級對比學習

當前語義分割演算法網路的本質是透過深度神經網路(FCN,transformer)將影象畫素對映到高度非線性的特徵空間,在這個過程中,當前演算法主要依賴於上下文聚合模組或者結構化的損失函式強調影象中區域性畫素之間的關係。

跨圖片畫素級對比學習

但是他們忽略了一個主要的問題:一個理想的畫素語義空間應該是長什麼樣子的呢?

1,應該具有較強的判別能力,也就是說在該特徵空間中每個畫素的特徵應具有較強的分類能力。

2,應該具有高度結構化,同類畫素的特徵應該非常緊緻,不同畫素特徵應該非常分散。

但是當前的語義分割方法只關注第一個性質,忽略了第二個性質,此外很多表徵學習的工作也驗證了透過強調性質二可以有效的增強性質一。

因此,作者假設,儘管現有的語義分割方法已經取得了很好的效果,但是在有效的強調性質二,可以得到一個更好的結構化的特徵空間,進而提高語義分割模型的效能。

跨圖片畫素級對比學習

自監督學習取得了很大的進展,尤其是對比學習,取得了很大的成功。對比學習本質上屬於度量學習,利用了資料集的整體資訊去學習一個具有極強表徵能力的影象表徵空間。在語義分割全監督的情況下,該資料集中各個影象的標籤已經給出,可以將正樣本視為同屬於相同語義的類別的畫素,將負樣本視為不屬於相同語義類別的畫素,而不論他們是否來源於同一個訓練影象,之後就可以利用度量學習或者對比學習對傳統的交叉熵損失加以改進,進而挖掘所有訓練影象中,畫素和畫素之間的全域性語義關係。由此可以獲得一個高度結構化的語義特徵關係。從而同時滿足性質1和性質2

跨圖片畫素級對比學習

給定畫素i,拉近其與相同標籤下其他畫素之間的距離,拉遠其與不同標籤下畫素之間的距離。該訓練正規化可以考慮整個訓練集中所有畫素的全域性語義相似度,使得模型可以利用更具多樣性的大規模的樣本提升表徵學習的能力,從而獲得更優的語義特徵空間。

跨圖片畫素級對比學習

傳統的語義分割演算法一般都是講畫素資訊輸入到FCN網路對資訊進行編碼,之後輸入到SEG網路對語義進行分割,再利用CE loss進行模型的最佳化。其中y代表網路預測的Logit。

交叉熵損失的缺點:1,只對每個畫素的預測進行獨立的約束,無法表示畫素之間的關係;2,由於使用了softmax操作,交叉熵的計算實際只依賴於Logit之間的相對關係,就無法直接約束學習到的畫素特徵。

儘管最近的結構化損失函式意識到了缺點1,但是他們僅僅考慮了同一個影象內部的畫素依賴關係,忽略了不同影象之間的畫素語義一致性。

跨圖片畫素級對比學習

因此作者提出了畫素對比學習,為了實現對比學習,作者的訓練網路也得到了改變。首先一張影象,仍然是先輸入到FCN網路中得到該影象特徵(該特徵可以用於進行語義分割的預測),同時引入了projection head將影象特徵對映到一個新的特徵空間中去,在這個特徵空間中,我們進行畫素對比學習的計算,來最佳化特徵表示。在對比學習中,使用了兩個特殊的技術,一個是難例特徵挖掘技術(透過挖掘資訊量更大的更有效的訓練樣本來獲得一個更佳的效能),另外就是引入記憶體池的機制(記憶體池記憶體儲了大量訓練集中的畫素特徵,為畫素對比學習提供了大量的訓練樣本)。

跨圖片畫素級對比學習

最終的損失函式是交叉熵損失函式和畫素對比學習損失函式的加和。交叉熵損失函式促使模型學習具有判別力的特徵解決性質1,畫素對比學習透過探索全域性語義關係從整體上約束語義特徵空間,解決性質2。

跨圖片畫素級對比學習

該圖展示了只使用交叉熵損失和採用交叉熵和對比損失加和的效果。可以看到加入對比學習損失後,相同特徵之間的距離更加緊緻,類和類之間也可以更好的分離。這表明結合一元的交叉熵損失和二元的對比學習損失,分割網路可以學習更好的特徵表示。

跨圖片畫素級對比學習

同時,畫素的選擇也對模型效果而言非常重要。

跨圖片畫素級對比學習

難的負例:和anchor非常相似的,餘弦距離接近於1的

難的正例:和anchor非常不相似的,餘弦距離接近於-1的

此外對anchor本身進行了一個難例的挖掘,如果分割結果是錯誤的,我們認為其是一個比較難的anchor,

跨圖片畫素級對比學習

實現了兩種記憶體池的機制,來儲存歷史的訓練集中的畫素特徵。

第一種是pixel bank(畫素池),儲存每一個畫素的特徵,每一個類維持一個佇列,每個佇列儲存的是最新的幾個batch中取樣出的畫素的特徵。

另一種是region bank,對於每一張影象,會把每一類的所有pixel進行一個平均池化,之後將這個特徵存入到region bank中。

透過兩種記憶體池的機制,可以引出pixel-to-region contrast和一個pixel-to-pixel cotrast。

跨圖片畫素級對比學習

實驗:

消融實驗:

1,ce loss對比ce loss+圖內對比學習對比ce loss+圖間對比學習。發現圖間對比學習確實有較好的效能。

2,ce loss對比batch內對比學習對比單一memory bank對比雙memory bank,發現雙bank效果好

3,難例對比學習,可以發現是semi hard是效果最好的。

跨圖片畫素級對比學習

測試對比loss和其他loss之間效能的對比。

跨圖片畫素級對比學習

測試不同的資料集上的效果。

標簽: 畫素  語義  對比  學習  特徵