您當前的位置:首頁 > 攝影

深度學習中的影象分割:方法和應用

作者:由 籮筐技術 發表于 攝影時間:2022-11-26

導讀:

介紹使影象分割的方法,包括傳統方法和深度學習方法,以及應用場景。

基於人工智慧和深度學習方法的現代計算機視覺技術在過去10年裡取得了顯著進展。如今,它被用於影象分類、人臉識別、影象中物體的識別、影片分析和分類以及機器人和自動駕駛車輛的影象處理等應用上。

許多計算機視覺任務需要對影象進行智慧分割,以理解影象中的內容,並使每個部分的分析更加容易。今天的影象分割技術使用計算機視覺深度學習模型來理解影象的每個畫素所代表的真實物體,這在十年前是無法想象的。

深度學習可以學習視覺輸入的模式,以預測組成影象的物件類。用於影象處理的主要深度學習架構是卷積神經網路(CNN),或者是特定的CNN框架,如AlexNet、VGG、Inception和ResNet。計算機視覺的深度學習模型通常在專門的圖形處理單元(GPU)上訓練和執行,以減少計算時間。

什麼是影象分割?

影象分割是計算機視覺中的一個關鍵過程。它包括將視覺輸入分割成片段以簡化影象分析。片段表示目標或目標的一部分,並由畫素集或“超畫素”組成。影象分割將畫素組織成更大的部分,消除了將單個畫素作為觀察單位的需要。影象分析有三個層次:

分類 - 將整幅圖片分成“人”、“動物”、“戶外”等類別

目標檢測 - 檢測影象中的目標並在其周圍畫一個矩形,例如一個人或一隻羊。

分割 - 識別影象的部分,並理解它們屬於什麼物件。分割是進行目標檢測和分類的基礎。

深度學習中的影象分割:方法和應用

語義分割 vs. 例項分割

在分割過程本身,有兩個粒度級別:

語義分割 - 將影象中的所有畫素劃分為有意義的物件類。這些類是“語義上可解釋的”,並對應於現實世界的類別。例如,你可以將與貓相關的所有畫素分離出來,並將它們塗成綠色。這也被稱為dense預測,因為它預測了每個畫素的含義。

深度學習中的影象分割:方法和應用

例項分割 - 標識影象中每個物件的每個例項。它與語義分割的不同之處在於它不是對每個畫素進行分類。如果一幅影象中有三輛車,語義分割將所有的車分類為一個例項,而例項分割則識別每一輛車。

傳統的影象分割方法

還有一些過去常用的影象分割技術,但效率不如深度學習技術,因為它們使用嚴格的演算法,需要人工干預和專業知識。這些包括:

閾值 - 將影象分割為前景和背景。指定的閾值將畫素分為兩個級別之一,以隔離物件。閾值化將灰度影象轉換為二值影象或將彩色影象的較亮和較暗畫素進行區分。

K-means聚類 - 演算法識別資料中的組,變數K表示組的數量。該演算法根據特徵相似性將每個資料點(或畫素)分配到其中一組。聚類不是分析預定義的組,而是迭代地工作,從而有機地形成組。

基於直方圖的影象分割 - 使用直方圖根據“灰度”對畫素進行分組。簡單的影象由一個物件和一個背景組成。背景通常是一個灰度級,是較大的實體。因此,一個較大的峰值代表了直方圖中的背景灰度。一個較小的峰值代表這個物體,這是另一個灰色級別。

邊緣檢測 - 識別亮度的急劇變化或不連續的地方。邊緣檢測通常包括將不連續點排列成曲線線段或邊緣。例如,一塊紅色和一塊藍色之間的邊界。

深度學習如何助力影象分割方法

現代影象分割技術以深度學習技術為動力。下面是幾種用於分割的深度學習架構:

使用CNN進行影象分割,是將影象的patch作為輸入輸入給卷積神經網路,卷積神經網路對畫素進行標記。CNN不能一次處理整個影象。它掃描影象,每次看一個由幾個畫素組成的小“濾鏡”,直到它映射出整個影象。

傳統的cnn網路具有全連線的層,不能處理不同的輸入大小。FCNs使用卷積層來處理不同大小的輸入,可以工作得更快。最終的輸出層具有較大的感受野,對應於影象的高度和寬度,而通道的數量對應於類的數量。卷積層對每個畫素進行分類,以確定影象的上下文,包括目標的位置。

整合學習

將兩個或兩個以上相關分析模型的結果合成為單個。整合學習可以提高預測精度,減少泛化誤差。這樣就可以對影象進行精確的分類和分割。透過整合學習嘗試生成一組弱的基礎學習器,對影象的部分進行分類,並組合它們的輸出,而不是試圖建立一個單一的最優學習者。

DeepLab

使用DeepLab的一個主要動機是在幫助控制訊號抽取的同時執行影象分割 —— 減少樣本的數量和網路必須處理的資料量。另一個動機是啟用多尺度上下文特徵學習 —— 從不同尺度的影象中聚合特徵。DeepLab使用ImageNet預訓練的ResNet進行特徵提取。DeepLab使用空洞卷積而不是規則的卷積。每個卷積的不同擴張率使ResNet塊能夠捕獲多尺度的上下文資訊。DeepLab由三個部分組成:

Atrous convolutions — 使用一個因子,可以擴充套件或收縮卷積濾波器的視場。

ResNet — 微軟的深度卷積網路(DCNN)。它提供了一個框架,可以在保持效能的同時訓練數千個層。ResNet強大的表徵能力促進了計算機視覺應用的發展,如物體檢測和人臉識別。

Atrous spatial pyramid pooling (ASPP) — 提供多尺度資訊。它使用一組具有不同擴充套件率的複雜函式來捕獲大範圍的上下文。ASPP還使用全域性平均池(GAP)來合併影象級特徵並新增全域性上下文資訊。

SegNet neural network

一種基於深度編碼器和解碼器的架構,也稱為語義畫素分割。它包括對輸入影象進行低維編碼,然後在解碼器中利用方向不變效能力恢復影象。然後在解碼器端生成一個分割影象。

深度學習中的影象分割:方法和應用

影象分割的應用

影象分割有助於確定目標之間的關係,以及目標在影象中的上下文。應用包括人臉識別、車牌識別和衛星影象分析。例如,零售和時尚等行業在基於影象的搜尋中使用了影象分割。自動駕駛汽車用它來了解周圍的環境。

目標檢測和人臉檢測

這些應用包括識別數字影象中特定類的目標例項。語義物件可以分類成類,如人臉、汽車、建築物或貓。

人臉檢測 - 一種用於許多應用的目標檢測,包括數字相機的生物識別和自動對焦功能。演算法檢測和驗證面部特徵的存在。例如,眼睛在灰度影象中顯示為谷地。

醫學影像 - 從醫學影像中提取臨床相關資訊。例如,放射學家可以使用機器學習來增強分析,透過將影象分割成不同的器官、組織型別或疾病症狀。這可以減少執行診斷測試所需的時間。

機器視覺 - 捕捉和處理影象,為裝置提供操作指導的應用。這包括工業和非工業的應用。機器視覺系統使用專用攝像機中的數字感測器,使計算機硬體和軟體能夠測量、處理和分析影象。例如,檢測系統為汽水瓶拍照,然後根據合格 - 不合格標準分析影象,以確定瓶子是否被正確地填充。

影片監控 — 影片跟蹤和運動目標跟蹤

這涉及到在影片中定位移動物體。其用途包括安全和監視、交通控制、人機互動和影片編輯。

自動駕駛 自動駕駛汽車必須能夠感知和理解他們的環境,以便安全駕駛。相關類別的物件包括其他車輛、建築物和行人。語義分割使自動駕駛汽車能夠識別影象中的哪些區域可以安全駕駛。

虹膜識別 一種能識別複雜虹膜圖案的生物特徵識別技術。它使用自動模式識別來分析人眼的影片影象。

人臉識別 從影片中識別個體。這項技術將從輸入影象中選擇的面部特徵與資料庫中的人臉進行比較。

零售影象識別

這個應用讓零售商瞭解貨架上商品的佈局。演算法實時處理產品資料,檢測貨架上是否有商品。如果有產品缺貨,他們可以找出原因,通知跟單員,併為供應鏈的相應部分推薦解決方案。作者 | missinglink。ai,編譯 | ronghuaiyang,來源 | AI公園

標簽: 影象  分割  畫素  卷積  識別