遙感|基於深度學習的海戰場圖像目標識別

摘要

近年來,卷積神經網絡在圖像分類、圖像檢索和物體檢測等領域的表現越來越出色,針對深度學習在海戰場圖像目標識別中應用的研究越來越豐富。首先歸納了圖像目標識別系統中常用深度學習技術的理論和發展歷程,然後對比分析了傳統識別技術與深度學習技術、基於區域建議的R-CNN系列模型與基於迴歸的YOLO模型的優勢和缺陷,梳理了深度學習技術在海戰場圖像目標識別中的應用現狀,最後展望了未來海戰場圖像目標識別技術的可能發展方向。

在現代化海戰中,衛星、無人機等空天偵查平臺在軍事目標探測中得到了廣泛應用,能夠監視和捕獲到大量遙感、SAR和可見光圖像,從這些圖像中解算出目標的身份和位置信息對戰術籌劃、指揮輔助決策以及精確打擊具有重要價值。然而,在實際海戰場環境中,圖像質量通常容易受到光照、薄霧、遮擋等自然地理因素的影響,此外,目標本身的姿態和尺度具有多變性,這些因素都會對識別性能造成一定的影響。因此,研究先進的圖像目標自動識別技術,提升海戰場環境下的圖像識別能力非常重要。

海戰場圖像目標識別技術

海戰場圖像目標識別包括基於序列圖像的識別和基於靜態圖像的識別,本文主要討論基於靜態圖像的識別。一個完整的海戰場圖像目標識別系統需要識別圖像中所有目標的類別和圖像中所有目標的具體位置和大小。

1.1 基於卷積神經網絡的分類模型

卷積神經網絡是目前應用最廣泛的深度學習技術,在圖像分類、圖像檢索、物體檢測等任務中表現及其優異。

一個經典的卷積神經網絡通常包括輸入層、卷積層、下采樣層(也叫池化層)、全連接層和輸出層,其中卷積層利用一定大小的卷積核對上一層輸出按一定步長從左到右從上到下進行卷積操作;下采樣層對卷積結果進行小鄰域特徵點整合;全連接層對經過一系列卷積和下采樣步驟後的數據進行分類,得到的誤差回傳到前面各層,並更新卷積核參數和全連接層參數,最終完成圖像分類。

1998年,LeCun等針對二維文本圖像識別問題提出了現代卷積神經網絡的雛形——— LeNet,如圖1所示。

遙感|基於深度學習的海戰場圖像目標識別

AlexNet在LeNet的基礎上加深了網絡的學習層數,使用5個卷積層和3個全連接層,並在訓練中進行了諸多改進,主要表現在:1)使用ReLU函數做激活函數解決了在網絡層數較深時易發生梯度消失的問題;2)使用LRN歸一化提高網絡的泛化能力;3)提出池化的大小大於步進、訓練時隨機丟棄全連接層中的部分神經元和擴大訓練數據集大小等方式抑制過擬合;4)在多GPU上進行分佈式計算加速網絡訓練。AlexNet是最先在ImageNet圖像分類競賽中取得突破的網絡,為後來更多更優秀模型的提出奠定了基礎。

為了提升CNN 在圖像分類問題上的表現,牛津大學的研究人員在卷積層大量採用3*3的卷積核提取圖像特徵,提出比AlexNet模型更深的VGG模型 。

Google為了更好的融合多尺度模型特徵,提出了InceptionNet,InceptionNet在同一個卷積層中使用多個不同大小的卷積核對上一層輸出進行卷積,並把所有的卷積運算結果堆積到一起,從而避免了人工確定卷積核大小帶來的不確定性。此外,InceptionNet降低了全連接層的層數,除了分類層以外的所有層數全部用作特徵通用的特徵提取器。

由於梯度消失和梯度爆炸問題的存在,很深的神經網絡較難訓練,因此,隨著網絡深度的持續增大,分類精度反而會有所下降。針對該問題,何愷明等基於使用卷積層學習輸入輸出之間的殘差較為容易的思想,提出了ResNet,ResNet的每一個殘差塊在前向傳播的基礎上將當前層的激活值跳遠連接到網絡的更深層,如圖2所示。

遙感|基於深度學習的海戰場圖像目標識別

1.2 小樣本條件下的遷移學習技術

由於卷積神經網絡的訓練需要大量的數據,但在實際的海戰場圖像目標識別應用中,收集大量真實包含海戰場目標的圖像較為困難,可以考慮遷移學習。遷移學習通過簡單的調整在一個問題上訓練好的模型即可得到適用於新問題的新模型。

Donahue J等指出:在已經訓練完成的Inception-v3模型中,從輸入層到最後一個卷積層都是在對圖像進行特徵提取,而最後僅通過一個單層全連接神經網絡即可很好的區分ImageNet中的1000類圖像,所以Inception-v3模型的卷積層輸出可以被作為任意圖像的精簡且表達能力很強的特徵向量。因此,可以使用已訓練好的Inception-v3模型中的卷積層從新圖像集中提取特徵,並使用提取到的特徵向量作為輸入來訓練一個新的分類器。

1.3 基於區域建議的目標檢測與識別技術

由於圖像中通常不止包含一個目標,因此,將整張圖像劃分為單個類別並不準確。此外,一個完整的識別系統需要識別圖像中所有目標的類別和它們在圖像中的具體位置。和傳統的識別系統一樣,基於區域卷積神經網絡的目標檢測算法也使用預訓練的分類模型對圖像中的候選區域進行分類。近年來,候選區域生成方法的研究不斷深入,湧現出包括R-CNN系列檢測算法等諸多成熟檢測算法。

傳統識別系統中常用的滑動窗口檢測方法,同樣也可用於基於深度網絡的識別系統,它通過暴力手段從左到右,從上到下滑動固定大小的窗口,並使用預訓練完成的CNN對窗口中的目標進行分類。滑動窗口檢測方法計算成本高、窗口大小和窗口移動步幅難以確定等缺點十分明顯。

Girshick R 等針對滑動窗口的缺陷提出了使用Selective Search方法從待檢測圖像中提取可能包含待檢測目標的2000個左右候選區域,使用預先訓練好的CNN提取這些候選區域的特徵,最後進行目標分類和邊框迴歸,這就是R-CNN,如圖3所示。

遙感|基於深度學習的海戰場圖像目標識別

相對於滑動窗口方法,R-CNN雖然在很大程度上降低了計算成本,但它生成的2000個候選區域都需要獨立地輸入CNN來提取特徵,所以訓練和推斷速度仍然非常慢。為了進一步降低計算成本,解決R-CNN的重複計算問題,Girshick R基於直接使用特徵圖代替原圖來檢測目標的想法,又提出了Faster R-CNN,Faster R-CNN不再像R-CNN一樣對每個候選區域進行特徵提取,而是先使用CNN提取整個圖像特徵, 然後將Selective Search方法創建的候選區域直接用在特徵圖上,如圖4 所示。

遙感|基於深度學習的海戰場圖像目標識別

針對Faster R-CNN模型生成2000個候選區域耗時太長的問題,Ren S 等提出了Faster R-CNN,在最後一個卷積層之後加入區域建議網絡快速生成候選區域,並判斷候選區域是否包含特定類別的目標,最後使用迴歸器進一步調整包含目標的候選區域,如圖5 所示,Faster R-CNN大大提高了目標檢測和識別的效率。

遙感|基於深度學習的海戰場圖像目標識別

1.4 基於端到端可訓練網絡的目標檢測技術

BojarskiM等在自己的論文中首次提到了端到端的學習,但沒有給出嚴格的定義。通常,從輸入端到輸出端的所有任務在同一個網絡中進行訓練的過程可看做是端到端學習。

事實上,Faster R-CNN 將RPN集成到Faster R-CNN中得到統一的檢測網絡,已經是一種端到端可訓練的網絡。但是Faster R-CNN仍然通過生成候選區域的方法來完成目標識別,其中很多存在較大重疊的候選區域帶來了重複地識別工作。針對Faster R-CNN存在的缺陷,Redmon J等提出了YOLO(You Only Look Once)模型。YOLO模型是一種基於迴歸的檢測和識別模型,它將目標檢測當作一個迴歸問題,使用CNN對輸入圖像進行一次推理直接得到圖像中所有物體的位置、所屬類別及相應的置信概率,極大地提升了目標檢測的速度。

不同識別技術在實際應用中的對比分析

2.1 傳統識別技術和深度學習技術的對比

傳統的海戰場目標識別系統將識別流程分為預處理、特徵提取、特徵融合和目標檢測識別四個步驟,如圖6 所示。

遙感|基於深度學習的海戰場圖像目標識別

和傳統識別系統需要人工設計特徵不同,基於深度學習技術的識別系統通過對大量訓練數據的自動學習,提取出識別目標所需要的重要特徵,從而完成識別任務,如圖7 所示。

遙感|基於深度學習的海戰場圖像目標識別

近年來,以卷積神經網絡為主的深度學習技術在計算機視覺領域得到了廣泛應用,關於深度學習技術為什麼能夠奏效的討論也越來越多,總結來看,深度學習技術和傳統識別技術的區別主要表現在以下三個方面:

其一,特徵提取的方式不同。在構建傳統識別系統時,需要手動提取已被行業專家確定有效的多種特徵,並應用特徵融合算法從中剔除冗餘特徵量,從而獲得用於分類器訓練的特徵;而卷積神經網絡試圖從數據中學習特徵,能夠大大減少發現特徵的成本。此外,卷積神經網絡從大量數據中學習到的特徵對海戰場環境下受噪聲、遮擋以及尺度、姿態變化干擾的圖像更加魯棒。

其二,對訓練數據體量和多樣性的依賴不同。隨著數據體量的增加,傳統識別系統的性能容易飽和;而基於深度學習技術的識別系統性能可以持續提升。此外,基於深度學習技術的識別對數據多樣性要求更高,同一類目標的不同姿態尺度以及其他噪聲干擾圖像越多,訓練得到的模型越魯棒。

其三,系統的運行時間差別較大。傳統識別系統訓練分類模型很快,但是在預測時提取線數據特徵往往涉及複雜的圖像變換,在線數據預測的實時性難以保證;基於深度學習技術的識別系統有太多的參數需要學習,需要很長時間訓練,但是訓練完成的模型在提取特徵時只涉及簡單的四則運算,能夠保證預測任務上的實時性。

2.2 基於深度學習的目標檢測識別技術的對比

基於深度學習的目標檢測技術主要包括基於區域建議的R-CNN系列模型和基於迴歸的YOLO模型。這兩類檢測技術的共同點是都使用卷積神經網絡作為特徵提取器,但解決目標檢測的方式不同。基於區域建議的R-CNN系列模型將目標檢測問題分為給出可能存在目標的區域和識別所有建議區域的目標類別,而基於迴歸的YOLO模型將目標檢測問題轉換為迴歸問題,運行一次CNN直接得到所有目標的位置、所屬類別和相應的置信概率。因此,相比於基於迴歸的YOLO模型,基於區域建議的R-CNN系列模型在實際應用中目標檢測率更高、定位更準確(尤其是對小目標),但檢測速度較慢。

目前,基於深度學習的目標檢測和識別技術發展迅速,但尚處於研究階段,實際應用不多。胡炎等在Faster R-CNN框架下構建了一個僅3層的卷積神經網絡,並對4種不同海洋雜波環境的寬幅SAR圖像進行測試,取得了較好的檢測結果;周奇通過融合低層特徵和抽象特徵提出了一種新的YOLO網絡模型變種,實現了移動輪船的實時檢測。

結束語

因為有了ImageNet這樣百萬量級的帶標籤數據,卷積神經網絡才能在計算機視覺領域大放異彩,可以說深度學習是一種數據驅動型技術。就目前而言,實際應用中還缺乏大量的帶標籤數據,傳統算法在一段時間內將仍然是海戰場圖像目標識別的主要方法,但在海戰場圖像目標識別中應用深度學習技術的趨勢已經越來越明顯。

可以預見,通過不同渠道收集和標註真實數據,研究數據增強方法和尋找可遷移到海戰場圖像目標識別中的模型應當是今後的工作重點。此外,組合手動提取的經典特徵和CNN提取的抽象特徵用於分類、利用對高維特徵有較強分類能力的SVM對CNN 提取的特徵進行分類,被證明能夠提升識別準確率,應當是今後的研究方向。最後,海戰場圖像目標識別系統對目標檢測和識別的快速性和準確性有較高要求,所以基於端到端可訓練網絡的識別技術將是未來研究的潮流。

來源:指揮控制與仿真

(本文為網絡摘錄或轉載,版權歸原作者或刊登媒體所有。如涉及作品版權問題,請聯繫我們處理。)

相關推薦

推薦中...