您當前的位置:首頁 > 攝影

基於卷積神經網路(CNN)的多聚焦影象融合

作者:由 AI高階人工智慧 發表于 攝影時間:2021-04-07

1. 背景介紹

在多聚焦影象融合演算法中,活動水平測量和融合規則的設計是影響融合影象質量的兩個關鍵因素。活動水平測量用於提取源影象的特徵,而融合規則用於區分聚焦區域和非聚焦區域。傳統的融合方法需要設計複雜的特徵提取和分類方法,而基於卷積神經網路的融合方法可以有效地克服這些困難。卷積神經網路中的卷積層和最大池化層通常被視為特徵提取部分,全連線層則被視為分類部分,可以透過學習 CNN 模型共同生成活動水平測量和融合規則。

2. 卷積神經網路

2。1 卷積神經網路

卷積神經網路(CNN)是一種典型的深度學習模型。針對訊號或者影象資料,它可以學習不同抽象層次的特徵表示機制,是一種可以訓練的多級前饋人工神經網路。CNN透過學習濾波器提取輸入影象的特徵,從而得到每個層次的不同特徵圖,特徵圖中的每個單元或者係數被稱為神經元。一般利用濾波卷積、啟用函式和池化這三種類型的計算方法連線相鄰層次之間的特徵圖。 區域性感受野,共享權重和下采樣是CNN的三個基本思想架構。其中,區域性感受野指的是CNN中每一層輸出特徵圖上的畫素點在輸入影象上對映的區域大小。共享權重意味著卷積核中的權值在特定一級的特徵圖中具有空間不變性。CNN模型比傳統的基於多層感知(Multilayer Perception,MLP)神經網路的優勢在於,兩個相鄰網路層之間的神經元透過卷積運算和權重共享策略進行區域性連線,從而大大減少了自由引數的數量。透過下采樣可以降低特徵圖的維度,減少計算的複雜度。2。2 Siamese 神經網路

Mustafa 等人[44]提出了兩種型別的 CNN 模型用於比較兩個輸入影象塊的相似度:Siamese 神經網路和 Pseudo-siames 神經網路。這兩類神經網路模型都具有兩個輸入分支,並且結構相同。這兩個網路的不同之處在於,Siamese 網路的兩個分支權重相同,網路結構相對簡單,而 Pseudo-siames 網路的兩個分支權重不同。因此,Pseudo-siames 神經網路比 Siamese 神經網路更靈活,但 Siamese 神經網路比 Pseudo-siames 神經網路更容易訓練。在影象融合過程中,對兩幅輸入源影象的特徵提取和活動水平測量的方法是相同的,一般認為兩幅輸入影象具有相同的權重,所以 Siamese 神經網路更適用於影象融合。 Siamese 神經網路結構如圖所示,該網路具有兩個相同的分支,它們共享權重從而學習輸入影象的特徵表示。輸入資料通常是成對的影象塊,將這兩個影象塊分別作為兩個網路的輸入,透過損失函式可以測量兩個輸入影象塊的相似性。其中,1C 表示輸入影象 1 的輸出特徵圖,2C 表示輸入影象 2 的輸出特徵圖。反向傳播演算法是訓練神經網路的核心演算法,它可以根據定義好的損失函式最佳化神經網路中引數的取值,反向傳播演算法可以高效的在所有引數上使用梯度下降演算法,從而使神經網路模型在訓練資料集上的損失函式達到一個極小值。神經網路模型中引數的最佳化過程直接決定了模型的質量,是使用神經網路時非常重要的一步。

基於卷積神經網路(CNN)的多聚焦影象融合

3. 神經網路模型設計

3。1 生成訓練樣本

基於深度學習的融合演算法需要大量的訓練樣本,但是在實際拍攝的過程中由於相機的抖動或者場景內物體的移動,很難拍攝兩幅完全一致的多聚焦源影象。現有的基於深度學習的多聚焦影象融合演算法中,為了模擬多聚集影象中的聚焦區域和非聚焦區域,需要對清晰的自然影象進行濾波處理,從而得到相應的模糊影象。ILSVRC2012 是最常用的影象分類資料集,其中包含了不同類別的清晰影象。

3。2 網路結構的設計

在影象融合過程中,對兩幅源影象的特徵提取和活動水平測量方法都是相同的。深層的網路會消耗大量的時間,為了確保演算法的效率,儘可能的降低神經元的數量,本文選用淺層的基於Siamese網路的CNN模型。確定合適的輸入影象塊尺寸是網路設計的一個重點。當影象塊大小設定為32*32時,包含的資訊量較多,網路的分類效果更好,但網路的每個分支需要包含兩個或多個最大池化層以減少網路的引數數量,這意味著影象融合過程中源影象的補丁步幅至少為4,融合結果中會出現塊偽影的現象。此外,對於多聚焦影象融合,影象塊過大時會同時包含聚焦和非聚焦區域,導致融合影象的邊界區域效果不佳;當影象塊的大小設定為8*8 時,影象中包含的特徵資訊過少,可能會降低影象分類的準確性。透過參考文獻,本文將輸入影象塊的尺寸設為16*16。 基於Siamese網路的CNN模型如下圖所示。該模型具有兩個輸入分支,每個分支都包含了三個卷積層和一個最大池化層,濾波器的個數分別為64、128和256。卷積核的大小及步長分別為3*3 和1,並採用ReLU作為非線性啟用函式。池化層的池化因子和步長分別為 2*2 和2。將每個分支得到的256個特徵級聯後作為全連線層的輸入,第一個全連線層(Full-1)包含256維特徵向量,第二個全連線層(Full-2)包含2維特徵向量,表示兩種型別的分類標籤。最後透過Sofmax分類後,輸出值的大小即為這一對輸入影象塊的聚焦屬性。該網路中各層的結構引數如表1所示。

基於卷積神經網路(CNN)的多聚焦影象融合

基於卷積神經網路(CNN)的多聚焦影象融合

4. 影象融合流程

基於卷積神經網路(CNN)的多聚焦影象融合

基於卷積神經網路(CNN)的多聚焦影象融合

微信公眾號:

人工智慧感知資訊處理演算法研究院

標簽: 影象  神經網路  卷積  融合  輸入