您當前的位置:首頁 > 文化

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

作者:由 AI科技評論 發表于 文化時間:2019-10-24

作者 | BBuf單位 | 北京鼎漢技術有限公司 演算法工程師(CV)編輯 | 唐裡

下面要介紹的論文始發於ICCV2019。

論文標題:SNIDER: Single Noisy Image Denoising and Rectification for Improving License Plate Recognition

論文地址:

https://

arxiv。org/pdf/1910。0387

6

在本文中,我們提出了一種用於從真實世界中的低質量影象中進行車牌識別的演算法。我們的演算法建立在降噪和校正的框架上,並且每個任務都是由卷積神經網路來執行。在先前的研究中,降噪和校正任務分別被一個神經網路來處理。不同以往,我們提出了一種可訓練的端到端的影象恢復網路,即“單噪聲影象降噪和校正”網路(SNIDER),致力於一起解決這兩個問題。此外,我們提出了一種利用輔助任務最佳化多工訓練損失的方法。在兩個具有挑戰性的LPR資料集AOLP-RP和VTLPs進行了大量的實驗,證明了我們提出的方法的有效性,並且在從低質量的車牌影象中恢復高質量的車牌影象時本方法優於其他的SOAT方法。

一、研究背景

真實世界中的車牌識別(LPR)是多種智慧運輸系統(ITS)應用程式,如車輛重識別,戶外場景理解,用於隱式保護的去識別等的基本問題之一。過去幾年,LPR已經在理論,實驗和數理方面得到了廣泛的研究,以提供魯棒的影象特徵表示。一些LPR方法可以捕獲影象和噪聲的結構屬性,以進行嚴格的約束。雖然已經取得了一些成果,但由於外觀,噪聲,角度和光照的變化,在野外進行車牌識別仍不能取得令人滿意的效果。近年來,由於卷積神經網路的發展,許多計算機視覺任務取得了很大進步例如目標檢測,語義分割,人臉識別等。同時CNN引導的LPR方法也被廣泛用於解決識別現實世界中捕獲的車牌。然而,現有的LPR方法仍然無法學習到野外所有型別的樣本,這些演算法實際上是將高質量的影象作為輸入。通常,在現實世界中收集的車牌可能包含質量很低的影象,從而導致LPR效能下降。因此,在真實世界場景中開發魯棒的LPR框架是必要的。

在本文中,我們基於多個輔助任務設計了一個端到端的單噪聲影象降噪和校正網路(SNIDER)以實現更好的LPR。Figure1展示了我們的框架,其中SNIDER和預訓練的LPR網路(這裡是基於Darknet的YOLOV3網路)相結合。SNIDER包括兩個子網路:降噪網路和校正網路。基於U-Net在恢復影象細節方面的成功,我們採用U-Net結構作為影象恢復骨幹網洛,嘗試從結構級別的細節中提取視覺內容。在去噪子網路(DSN)中,我們嘗試將低質量的影象直接逐畫素地轉換為高質量的影象。DSN可以懲罰噪聲和無噪聲影象對之間的損失,從而獲得無噪和有精細紋理的輸出影象。但僅僅使用DSN,去噪影象仍不能令人滿意,因為影象仍然具有隨機的幾何變化。因此,校正網路(RSN)被提出用於校正去噪後車牌影象的幾何畸變。此外,我們提出利用新的輔助任務進一步最佳化SNIDER的DSN和RSN網路。一共有兩個輔助任務:一個文字計數模組和一個分割預測模組。具體來說,我們使用CNN作為編碼器來解決每個輔助模組。計數模組用來預測影象中的文字數量,被當作分類問題。在此模組中,儘管連續文字的邊界模糊,文字計數模組仍可區分單個文字,從而使影象質量更適合於文字檢測。在分割預測模組中,我們提出了一種二值分割方法來強調前景而不是背景,生成的分割結果使得車牌更加乾淨以進行文字識別。最後,學習輔助任務將引導影象恢復網路的中間特徵,從而增加幾何變化和低質量資訊等困難。更重要的是,我們引入了新的損失函式,用於訓練SNIDER和輔助任務,為LPR提供了更高質量的車牌資料。

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

Figure 1

二、相關工作

在本節中,我們簡要回顧與這項工作最相關的低質量影象恢復方法和車牌識別方法。

2.1低質量影象恢復

為了獲得高質量的影象,大多數現有的方法都依賴於這樣的假設:訊號和噪聲都是透過手工演算法從特定的統計規律中產生。此外,一些非引數模型被開發來模擬影象噪聲,但由於有限的觀測結果,它們對野外不受約束的環境並不具有魯棒性。近來,由於深度學習的發展,大多數降噪演算法都是採用深度神經網路體系結構和資料驅動的方法設計的,而非依靠先驗技術。儘管文字分類器對於清晰影象很有用,但由於文字幾何形狀不規則,因此仍難以識別。與現有方法不同,我們使用基於U-Net的CNN對影象進行去噪和校正。據我們所知,我們的研究可能是首個將上訴兩個模組同時應用於LPR。

2.2 車牌識別

在深度學習出現之前,大多數傳統的LPR方法都採用雙階段的處理流程,包括文字檢測和文字識別。隨著深度學習的發展,許多方法採用了單階段流程即不進行文字檢測。Li等透過將RNN與LSTM結合來提取深層特徵表示,以獲取車牌的連續特徵。Bulan等基於完全卷積網路估計目標域和多個原域之間的域轉換,以產生具有最佳識別效能的域。但這些方法僅考慮高質量的車牌影象,這容易導致模型在現實場景中效能下降。而且這些方法很少努力去改善影象樣本質量,同時也佔用了大量計算力。在我們的工作中,我們在真實場景中採用低質量影象恢復以提升LPR的效能。這是我們首次應用複雜的影象恢復技術來處理有挑戰的真實環境,雖然有額外恢復模組,但我們的方法仍具有較高的計算效率和實時識別能力。

三、方法

我們提出的方法由三部分組成:1)主任務預測網路包括去噪網路

G_D

和校正網路

G_R

。2)輔助任務預測網路包括文字計數分類網路

D_C

和分割網路

D_S

。3)用於文字檢測和分類的網路LPR。整個框架可以用Figure2來表示。

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

Figure 2

在訓練中,用於主任務和輔助任務的資料集可以透過簡單旋轉(用於校正)和縮小尺寸(用於降噪)獲得,如圖Figure3所示。

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

Figure 3

具體來說,一張原始影象

I^{HQ}

透過旋轉不同的角度可以產生四張訓練影象,其中

I^{HQ}_{i}

用於

G_D

I^{LQ}_{i}

用於

G_R

I^{seg}_i

用於

D_s

,c用於

D_c

i \in \{-30°,-15°, +15°,+30° \}

,主任務的

G_D

G_R

網路從輸入影象

I_{i}^{LQ}

恢復為高質量影象。然後,LPR網路獲取

G_R (G_D (I^{LQ}_{i}))

進行文字檢測和識別。

3.1去噪和校正網路

我們的主任務網路包括兩個子網路(即去噪子網路和校正子網路),第一個子網路以低質量影象為輸入,輸出為恢復影象。在本文中,我們設計了校正網路對來自降噪網路的輸出結果進行校正。影象恢復結果[15]顯示了U-Net的有效性,因為它可以提升影象中目標的細節資訊,而不會對影象生成產生負面影響。因此,我們採用基於U-Net的結構,同時添加了跳躍連線,可以共享影象低階語義資訊。

為了實現主任務,我們首先將

I^{LQ}_{i}

輸入到

G_D

網路產生去噪後的結果。給定一對輸入影象和未校正的去噪標籤影象

\{I_{i,j}^{LQ},I_{i,j}^{HQ} \}^{N}_{i,j}

G_D

的損失函式是逐畫素的MSE損失,如等式(1)所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

其中

\omega

是去噪網路的引數。這種損失函式讓網路不僅能提取輸入影象語義資訊也能生成畫素級的高質量影象。然後校正網路

G_R

G_D

的輸出開始處理,產生校正後的高質量影象,以更有利於LPR網路進行文字識別。訓練影象對用

\{G_D(I^{LQ}_{i,j}), I^{HQ}_{0,j}\}^{N}_{(i,j)}

表示,

G_R

網路使用L1損失函式,如等式(2)所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

其中w是校正網路的引數。和L2損失不同,畫素級別的L1損失有助於保留目標的外觀,例如影象顏色,亮度等。因此,在校正過程中,我們只會進行幾何變換而不會對影象造成外觀損傷,這對識別器是有用的。

3.2輔助任務預測

由於真實環境的複雜性,如文字的幾何形態及其不規則,影象背景很複雜等導致車牌的二值化資訊往往存在噪聲。儘管我們希望

G_D

G_R

可以捕獲魯棒的特徵來進行影象恢復,但是這種結構的結果並不能總是保證有良好的影象質量提升輸出。因此,我們使用了兩個輔助任務,即二值分割和計數估計,這將有助於我們的主任務網路產生更具區分性的代表特徵。針對這個問題,我們將編碼器最後一層的權值相加,以指導輔助任務網路更有效地從低質量影象中提取關鍵資訊。對於二值分割任務,我們介紹基於U-Net結構的分割解碼器

D_s

D_s

的細節如Table1所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

D_s

接收主任務編碼器求和後的特徵集F並輸出車牌分割結果,每個畫素位置的值代表該畫素值屬於車牌區域的機率。此外,用於分割的標籤樣本可以使用論文[4]中的OTSU演算法得到,如Figure3所示。雖然[4]中的分割註釋不能完全反映影象的實際細節,但我們的實驗表明,這種輔助學習的策略在影象恢復方面取得了有效的進展。給定F和語義分割標籤

I^{seg}

D_s

的損失函式為二元交叉熵損失,如公式(3)所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

其中

I^{seg}_{x,y}\in\{0,1\}

代表

I^{seg}

是否屬於車牌區域。同時,我們發現恢復的樣本通常不能區分連續的文字。所以我們增加了一個計數解碼器

D_c

來預測影象中字元的個數。因此,我們的

D_c

扮演兩個角色,第一個是使得相鄰字元之間的分割更加清晰,另外一個角色是促進每個主任務的編碼器產生更高質量的影象。

D_c

的損失函式為L2損失,如公式(4)所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

其中,

C_{pred}

是預測值,

C_{G.T}

是標籤。最終網路訓練的損失函式如公式(5)所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

最佳化此損失函式更新網路的引數即可。

四、結果

我們在兩個大型的車牌資料集AOLP-RP和VTLPs上測試了我們的演算法,我們在AOLP資料集上達到了驚人的99。18%的準確率,相比於直接使用YOLOV3做檢測提升了近10個點,證明了我們演算法的魯棒性和有效性。在兩個資料集上的測試結果如表Table3和Table4所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

我們的演算法在精度SOAT的同時,速度也可以達到實時,具有較好的實用價值。測試結果如圖Table5所示:

ICCV 2019 | 用於提高車牌識別的單幅噪聲影象去噪和校正

五、結論

本文提出了一種新的端到端的可訓練的影象恢復方法用於真實世界中的車牌識別。我們提出的恢復網路由兩個子網路組成,即去噪子網路和校正子網路。特別地,我們設計了使用兩個輔助任務來協助車牌影象恢復網路,從而使得恢復網路提取的特徵更加魯棒,以對抗現實場景中的幾何變化和模糊資料。此外,一個新的損失函式被引入到骨幹網路中,以提供正則化影響和提高恢復影象質量。在各種資料集上進行的廣泛實驗證明了在車牌恢復和識別方面的卓越效能。

標簽: 影象  網路  車牌  LPR  文字