[ACM MM2021] 基於Transformer的文件影象幾何矯正和光照恢復方法

作者：由喜歡AI的星宇發表于攝影時間：2022-06-05

本文簡要介紹ACM MM 2021發表的論文，“DocTr： Document Image Transformer for Geometric Unwarping and Illumination Correction”，其錄用為口頭報告論文。該論文針對自然場景下的文件影象的幾何矯正和光照恢復任務，結合文件影象特性和自注意力機制進行框架設計，在兩種恢復任務上均達到了當前最先進的效能。

一、研究背景

隨著智慧手機的飛速發展，越來越多的人選擇使用智慧手機拍攝文件。相比於傳統的掃描器，智慧手機的使用使得文件的數字化更加靈活、便利。然而，智慧手機拍攝的文件往往存在各種各樣的畸變，來源於以下三方面因素：不可控的文件形變（彎曲、摺疊、褶皺），隨機的拍攝視角，以及不均勻的光照條件。圖1展示了一些畸變文件影象示例。這些因素導致的畸變使得手機拍攝的數字化文件在一系列下游任務中表現不佳，比如自動化的文字識別，內容編輯，檢索等等。因此，近些年來，文件影象的矯正和恢復成為一項重要研究課題。

圖1 存在幾何和光照畸變的文件影象示例

傳統的基於3D重建的方法需要使用附加的硬體裝置（如深度相機）或者需要多張來自不同視角的文件影象。這類方法的使用和推廣因其複雜性收到了限制。近些年，基於深度學習的方法被引入文件影象矯正領域，輸入單張文件影象即可透過神經網路進行矯正。然而，當前的一系列工作沒有充分考慮並利用文件影象的性質，即紙張結構以及光照的全域性性。本文結合上述兩種特性和Transformer的全域性特徵提取能力，設計幾何矯正和光照恢復的方法。

二、方法原理簡述

圖2 網路整體框架圖

我們提出DocTr，一個可同時進行文件影象幾何矯正和光照恢復的框架。圖2展示了我們所提出的DocTr的整體框架圖。具體地，DocTr由一個幾何矯正的子網路和一個光照恢復的子網路組成。下面我們對它們分別進行簡要介紹。

（1）幾何矯正

如圖2所示，給定一張存在幾何和光照畸變的文件影象，我們首先用一個包含六個卷積模組的特徵提取器對其進行特徵提取，並降低特徵圖解析度至輸入影象的1/8尺度，以保證網路的推理效率。然後，我們將提取的特徵圖展平後，輸入至Transformer編碼器，解碼器，以及我們設計的可學習的上取樣模組，得到座標位移矩陣。最後，我們用對座標位移矩陣對輸入的影象進行幾何矯正（即基於雙線性插值的在輸入影象上按座標進行畫素重取樣）。

（2）光照恢復

如圖2所示，給定一張幾何矯正輸出的高解析度影象，我們首先將其切分成相互之間有1/8重疊的影象塊。然後，我們將每一個影象塊輸入至卷積特徵提取器，Transformer編碼器，解碼器，以及卷積輸出頭，從而輸出光照恢復的影象塊。最後，我們將每一個恢復的影象塊進行空間上的拼接，完成文件影象的光照恢復。

三、實驗結果

本節展示我們的方法的定量實驗結果（和SOTA方法的定量比較）以及定性的幾何矯正和光照恢復結果。

表1和表2分別展示了我們的方法在幾何矯正和光照恢復兩個任務上與SOTA方法的在DocUNet測試基準［2］上的定量比較。這裡，我們採用多方面評價指標，包括多尺度影象相似度（MS-SSIM），OCR指標（編輯距離ED，字元錯誤率CER），以及畫素級位移偏差（LD）。我們可以看出，我們的方法均達到了當前最先進的效能。