您當前的位置:首頁 > 文化

卷積網路綜述(從AlexNet到PNASNet)

作者:由 大師兄 發表于 文化時間:2018-12-24

物體分類是深度學習中最經典也是目前研究的最為透徹的一個領域,該領域的開創者也是深度學習的名人堂級別的人物,例如Geoffrey Hinton, Yoshua Bengio等。物體分類常見的資料集由數字資料集MNIST,物體資料集CIFAR-10和類別更多的CIFAR-100,以及任何state-of-the-art的網路實驗都規避不了的超大資料集ImageNet。ImageNet是李飛飛教授主辦的ILSVRC比賽中使用的資料集,ILSVRC的每年比賽中產生的網路也指引了卷積網路的發展方向。

2012年是ILSVRC的第三屆比賽,這次比賽的冠軍作品是Hinton團隊的AlexNet[1](圖1),他們將2011年的top-5錯誤率從25。8%降低到16。4%。他們的最大貢獻在於驗證了卷積操作在大資料集上的有效性,從此物體分類進入了深度學習時代。

卷積網路綜述(從AlexNet到PNASNet)

圖1:AlexNet

2013年的ILSVRC已由深度學習演算法霸榜,其冠軍網路是ZFNet[2]。ZFNet使用了更深的深度,並且在論文中給出了CNN的有效性的初步解釋。

卷積網路綜述(從AlexNet到PNASNet)

圖2:ZFNet

2014年是深度學習領域經典演算法最為井噴的一年,在物體檢測方向也是如此。這一屆比賽的冠軍是谷歌團隊提出的GoogLeNet[3] (top5:7。3%),亞軍則是牛津大學的VGG[4] (top5:6。7%),但是在分類任務中VGG則擊敗GoogLeNet成為冠軍。

VGG(圖3)提出了搭建卷積網路的幾個思想在現在依舊非常具有指導性,例如按照降取樣的分佈對網路進行分塊,使用小卷積核,每次降取樣之後Feature Map的數量加倍等等。另外VGG使用了當初賈揚清提出的Caffe[5]作為深度學習框架並開源了其模型,再憑藉其比GoogLeNet更高效的特性,使VGG很快佔有了大量的市場,尤其是在物體檢測領域。VGG也將卷積網路憑藉增加深度來提升精度推上了最高峰。

卷積網路綜述(從AlexNet到PNASNet)

圖3:VGG網路家族

GoogLeNet(圖4)則從特徵多樣性的角度研究了卷積網路,GoogLeNet的特徵多樣性是基於一種並行的使用了多個不同尺寸的卷積核的單元來完成的。GoogLeNet的最大貢獻在於指出卷積網路精度的增加不僅僅可以依靠深度,增加網路的複雜性也是一種有效的策略。

卷積網路綜述(從AlexNet到PNASNet)

圖4:GoogLeNet

2015年的冠軍網路是何愷明等人提出的殘差網路[5](圖5,top5:3。57%)。他們指出卷積網路的精度並不會隨著深度的增加而增加,導致問題的原因是網路的退化問題。殘差網路的核心思想是企圖透過向網路中新增直接對映(跳躍連線)的方式解決退化問題。由於殘差網路的簡單易用的特徵使其成為了目前使用的最為廣泛的網路結構之一。

卷積網路綜述(從AlexNet到PNASNet)

圖5:殘差網路

2016年ILSVRC的前幾名都是模型整合,卷積網路的開創性結構陷入了短暫的停滯。當年的冠軍是商湯可以和港中文聯合推出的CUImage,它是6個模型的模型整合,並無創新性,此處不再贅述。

2017年是ILSVRC比賽的最後一屆,這一屆的冠軍由Momenta團隊獲得,他們提出了基於注意力機制的SENet[6](圖6,top5:2。21%),該方法透過自注意力(self-attention)機制為每個Feature Map學習一個權重。

卷積網路綜述(從AlexNet到PNASNet)

圖6:SENet

另外一個非常重要的網路是黃高團隊於CVPR2017中提出的DenseNet[7],本質上是各個單元都有連線的密集連線結構(圖7)。

卷積網路綜述(從AlexNet到PNASNet)

圖7:DenseNet

除了ILSVRC的比賽中個冠軍作品們之外,在提升網路精度中還有一些值得學習的演算法。例如Inception的幾個變種[8, 9, 10]。基於多項式提出的PolyNet[11],PolyNet採用了更加多樣性的特徵。

卷積網路的另外一個方向是輕量級的網路,即在不大程度損失模型精度的前提下,儘可能的壓縮模型的大小,提升預測的速度。

輕量級網路的第一個嘗試是SqueezeNet[12],SqueezeNet的策略是使用一部分

1\times1

卷積代替

3\times3

卷積,它對標的模型是AlexNet。

輕量級網路最經典的策略是深度可分離卷積的提出,經典演算法包括MobileNetv1[13]和Xception[14]。深度可分離卷積由深度卷積和單位卷積組成,深度卷積一般是以通道為單位的

3\times3

卷積,在這個過程中不同通道之間沒有訊息交換。而資訊交換則由單位卷積完成,單位卷積就是標準的

1\times1

卷積。深度可分離卷積的一個比較新的方法是MobileNetv2[15],它將深度可分離卷積和殘差結構進行了結合,並透過一些列理論分析和實驗得出了一種更優的結合方式。

輕量級網路的另外一種策略是在傳統卷積和深度可分離卷積中的一個折中方案,是由ResNeXt[16]中提出的,所謂分組卷積是指在深度卷積中以幾個通道為一組的普通卷積。ShuffleNetv1[17]提出了通道洗牌策略以加強不同通道之間的資訊流通,ShuffleNetv2[18]則是透過分析整個測試時間,提出了對記憶體訪問更高效的ShuffleNetv2。ShuffleNetv2得出的結構是一種和DenseNet非常近似的密集連線結構。黃高團隊的CondenseNet[22]則是透過為每個分組學習一個索引層的形式來完成通道直接的資訊流通的。

目前在ImageNet上表現最好的是谷歌DeepMind團隊提出的NAS[19,20,21]系列文章,他們的核心觀點是使用強化學習來生成一個完整的網路或是一個網路節點。NAS[19]是該系列的第一篇文章,它使用了強化學習在CIFAR-10上學習到了一個類似於DenseNet的完整的密集連線的網路,如圖8。

卷積網路綜述(從AlexNet到PNASNet)

圖8:NAS

NASNet[20]解決了NAS不能應用在ImageNet上的問題,它學習的不再是一個完整的網路而是一個網路單元,見圖9。這種單元的結構往往比NAS網路要簡答得多,因此學習起來效率更高;而且透過堆疊更多NASNet單元的形式可以非常方便的將其遷移到其它任何資料集,包括權威的ImageNet。

卷積網路綜述(從AlexNet到PNASNet)

圖9:NASNet節點

PNASNet[21]則是一個性能更高的強化學習方法,其比NASNet具有更小的搜尋空間,而且使用了啟發式搜尋,策略函式等強化學習領域的方法又花了網路超參的學習過程,其得到的網路也是目前ImageNet資料集上效果最好的網路。網路結構見圖10。

卷積網路綜述(從AlexNet到PNASNet)

圖10:PNASNet節點

Reference

[1] Krizhevsky A, Sutskever I, Hinton G E。 Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems。 2012: 1097-1105。

[2] Zeiler M D, Fergus R。 Visualizing and understanding convolutional networks[C]//European conference on computer vision。 Springer, Cham, 2014: 818-833。

[3] Simonyan K, Zisserman A。 Very deep convolutional networks for large-scale image recognition[J]。 arXiv preprint arXiv:1409。1556, 2014。

[4] C。 Szegedy, W。 Liu, Y。 Jia, P。 Sermanet, S。 Reed, D。 Anguelov, D。 Erhan, V。 Vanhoucke, and A。 Rabinovich。 Going deeper with convolutions。 In CVPR, 2015。

[5] He K, Zhang X, Ren S, et al。 Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition。 2016: 770-778。

[6] Hu J, Shen L, Sun G。 Squeeze-and-excitation networks[J]。 arXiv preprint arXiv:1709。01507, 2017, 7。

[7] Huang G, Liu Z, Weinberger K Q, et al。 Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition。 2017, 1(2): 3。

[8] Ioffe S, Szegedy C。 Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]。 arXiv preprint arXiv:1502。03167, 2015。

[9] Szegedy C, Vanhoucke V, Ioffe S, et al。 Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2016: 2818-2826。

[10] Szegedy C, Ioffe S, Vanhoucke V, et al。 Inception-v4, inception-resnet and the impact of residual connections on learning[C]//AAAI。 2017, 4: 12。

[11] Zhang X, Li Z, Loy C C, et al。 Polynet: A pursuit of structural diversity in very deep networks[C]//Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on。 IEEE, 2017: 3900-3908。

[12] Iandola F N, Han S, Moskewicz M W, et al。 Squeezenet: Alexnet-level accuracy with 50x fewer parameters and< 0。5 mb model size[J]。 arXiv preprint arXiv:1602。07360, 2016。

[13] Howard A G, Zhu M, Chen B, et al。 Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]。 arXiv preprint arXiv:1704。04861, 2017。

[14] Chollet F。 Xception: Deep learning with depthwise separable convolutions[J]。 arXiv preprint, 2017: 1610。02357。

[15] Sandler M, Howard A, Zhu M, et al。 MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition。 2018: 4510-4520。

[16] Xie S, Girshick R, Dollár P, et al。 Aggregated residual transformations for deep neural networks[C]//Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on。 IEEE, 2017: 5987-5995。

[17] Zhang, X。, Zhou, X。, Lin, M。, Sun, J。: Shufflenet: An extremely efficient convolutional neural network for mobile devices。 arXiv preprint arXiv:1707。01083 (2017)

[18] Ma N, Zhang X, Zheng H T, et al。 Shufflenet v2: Practical guidelines for efficient cnn architecture design[J]。 arXiv preprint arXiv:1807。11164, 2018。

[19] Zoph B, Le Q V。 Neural architecture search with reinforcement learning[J]。 arXiv preprint arXiv:1611。01578, 2016。

[20] Zoph B, Vasudevan V, Shlens J, et al。 Learning transferable architectures for scalable image recognition[J]。 arXiv preprint arXiv:1707。07012, 2017, 2(6)。

[21] Liu C, Zoph B, Shlens J, et al。 Progressive neural architecture search[J]。 arXiv preprint arXiv:1712。00559, 2017。

[22] [19] Liu C, Zoph B, Shlens J, et al。 Progressive neural architecture search[J]。 arXiv preprint arXiv:1712。00559, 2017。

標簽: 卷積  arxiv  網路  2017  ET