您當前的位置:首頁 > 攝影

2021CVPR - Inception convolution

作者:由 孫明 發表于 攝影時間:2021-03-03

:寫一個我們最近被CVPR2021接受的工作,主要使用一些最佳化手段來找到新的卷積模式,目標是能夠找到一個部署友好簡單的卷積來幫助下游各個任務更好的提升baseline。之前別人有相關貼寫過一些,暴力漲點 | IC-Conv使用高效空洞搜尋Inception卷積帶來全領域漲點(文末附論文下載),標題有點誇張,這裡主要補充一下我對這個問題的認知。

背景

:1,熟悉檢測/姿態估計/或者low-level處理的研究人員應該比較清楚,感受野或者說如何獲得一個自適應的感受野網路是非常重要的。原因在於類別較多時,不同物體的scale是不一樣的。比如有的人在圖片裡佔比就比較小,有些就非常大。 2,熟悉細粒度分類的同學(比如人臉/貓狗之類的),可以明白在早起很多比賽中,inception-resnet經常取得一些不錯的結果,具體可以看一些頂會的FG比賽報告。其原因也比較簡單,因為細粒度更注重區域性的細節捕獲能力。

動機

:幾個領域對應的問題;(1)檢測/pose/seg/low-level裡面有很多來改善感受野的方案,比如我們之前的幾篇文章,但是核心問題在於最佳化手段較差,訓練和部署不友好;(2)NAS領域,實際NAS有個核心關鍵點在於一個平衡:如何在搜尋空間複雜度和精度之間做tradeoff。我的初衷是把NAS放小,NAS為Network 的架構搜尋,我在想能不能把它分解成Block級別或者是OP級別的搜尋。其次NAS的最佳化手段有很明顯的弊端:RL/one-shot,保序性和時間複雜度都很不友好。希望能夠引入新的資訊差,幫助更好的最佳化;(3)Incaption的精巧設計在很多網路和任務裡面都有用到,我們將其進一步壓縮,直接放在一個卷積中實現inception的思想精髓。

方案

:所以整體方案就很明確了,(1) 需要做一個OP的架構搜尋; (2)最佳化方法是簡潔卻不同於NAS的已有兩種手段; (3)把inception思想塞到OP裡面去; 具體操作就比較簡單了,將一個卷積進行分組,要實現inception(用最簡單的dilation代替就好,也可以選用更賤複雜的,歡迎大家follow,親測有效);最佳化方案得益於OP的縮小,可以用基於統計的最佳化思路,真的是比RL/one-shot省事太多了。希望後面還有inception-con v2/v3 出現。

2021CVPR - Inception convolution

基於dilation的inception conv

實驗結果

: 裡面還有一些實現細節,這兩天會直接放出原始碼和結果。重點還是那句話,dilation只是我們偷懶的一種選擇,你可以有很多種選擇,效果很強大,歡迎腦洞。大家可以看看這種簡單情況下的實驗效果。比最簡單的baseline高出11各點,關鍵訓練部署友好。

2021CVPR - Inception convolution

總結

:(1)這個pipeline是一套方案且通用,換掉dilation,效能應該會超過大家的認知;比如組內小夥伴會覺得在檢測上很難在往上走,實際換個空間還是有很大空間的;(2)這個版本的inception-conv更適合類別和scale較大的資料集(實際只要資料集夠複雜就一定存在這個問題),相反有些領域就不一定適合,比如人臉檢測的小模型。(3)第三遍,這是一個非常簡單的組合形式,希望後面研究人員繼續在上面做,我們已經連續幾篇了,可以看我之前的帖子。

招聘

:我們現在比較缺 NLP(BERT/GPT)/ 語音 等多模態的人,無監督/OPENAI的CLIP/transformer的熱度我們也想蹭一蹭,HC和卡巨多,感興趣的小夥伴可以給我發簡歷(m_sunming@163。com)或者私信~

標簽: inception  nas  卷積  最佳化  op