一文讀懂機器學習及其在遙感中的應用

一直以來,從遙感數據進行信息提取是一個長期的遙感科學難題。遙感圖像分類是遙感圖像信息處理中最基本的問題之一,其分類技術是遙感應用系統中的關鍵技術,遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進,探索新的方法,以不斷提高遙感圖像自動分類算法的精度和速度。

本文基於機器學習,細細研讀了其在遙感中的應用。

1 .工作介紹

機器允許我們在短時間內進行復雜的計算。這導致出現了一個完全不同的研究領域,這個領域沒有被探索:教學機器通過觀察模式來預測可能的產生的結果。機器學習正在被用來解決各種各樣的問題,從股票市場預測到醫療配方的合成。

現在有很多著名的機器學習算法,每隔一天就會出現新的算法。一些廣為人知的算法是:

支持向量機

神經網絡

隨機森林

再鄰居

決策樹

K最近鄰算法

主成分分析

不同的重要步驟是讓機器預測可靠併產生可靠的數據。

2.遙感機器學習

一直以來,從遙感數據進行信息提取是一個長期的遙感科學難題。遙感圖像分類是遙感圖像信息處理中最基本的問題之一,其分類技術是遙感應用系統中的關鍵技術,遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進,探索新的方法,以不斷提高遙感圖像自動分類算法的精度和速度。

本文基於機器學習,細細研讀了其在遙感中的應用。

1 .工作介紹

機器允許我們在短時間內進行復雜的計算。這導致出現了一個完全不同的研究領域,這個領域沒有被探索:教學機器通過觀察模式來預測可能的產生的結果。機器學習正在被用來解決各種各樣的問題,從股票市場預測到醫療配方的合成。

現在有很多著名的機器學習算法,每隔一天就會出現新的算法。一些廣為人知的算法是:

支持向量機

神經網絡

隨機森林

再鄰居

決策樹

K最近鄰算法

主成分分析

不同的重要步驟是讓機器預測可靠併產生可靠的數據。

2.遙感機器學習

一文讀懂機器學習及其在遙感中的應用

遙感機器學習的根源可以追溯到上世紀90年代。它最初被引入作為一種自動化知識基礎建設的遠程感知的方法。在他們的論文中,黃和延森(1997)討論瞭如何利用人類專家的最低輸入來建立一個知識基礎,然後創建決策樹來從專家系統的人工輸入中推斷規則。生成的規則被用於薩凡納河上的一個研究地點。結論詳細說明了與當時的傳統方法相比,機器學習輔助專家系統方法的準確度是最高的。在類似的發展之後,機器學習很快成為遙感社區的一個重要工具。現在它被用於各種各樣的項目,從無監督的衛星圖像場景分類(Li,et al. 2016)到澳大利亞本土森林的分類(Shang & Chisholm,2014)。現在我們來看看典型的機器學習工作流。

3 .項目機器學習工作流程

讓自己熟悉所涉及的工作流是很重要的。機器學習也有一個工作流,這在所有基於機器學習的項目中都是常見的。

一直以來,從遙感數據進行信息提取是一個長期的遙感科學難題。遙感圖像分類是遙感圖像信息處理中最基本的問題之一,其分類技術是遙感應用系統中的關鍵技術,遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進,探索新的方法,以不斷提高遙感圖像自動分類算法的精度和速度。

本文基於機器學習,細細研讀了其在遙感中的應用。

1 .工作介紹

機器允許我們在短時間內進行復雜的計算。這導致出現了一個完全不同的研究領域,這個領域沒有被探索:教學機器通過觀察模式來預測可能的產生的結果。機器學習正在被用來解決各種各樣的問題,從股票市場預測到醫療配方的合成。

現在有很多著名的機器學習算法,每隔一天就會出現新的算法。一些廣為人知的算法是:

支持向量機

神經網絡

隨機森林

再鄰居

決策樹

K最近鄰算法

主成分分析

不同的重要步驟是讓機器預測可靠併產生可靠的數據。

2.遙感機器學習

一文讀懂機器學習及其在遙感中的應用

遙感機器學習的根源可以追溯到上世紀90年代。它最初被引入作為一種自動化知識基礎建設的遠程感知的方法。在他們的論文中,黃和延森(1997)討論瞭如何利用人類專家的最低輸入來建立一個知識基礎,然後創建決策樹來從專家系統的人工輸入中推斷規則。生成的規則被用於薩凡納河上的一個研究地點。結論詳細說明了與當時的傳統方法相比,機器學習輔助專家系統方法的準確度是最高的。在類似的發展之後,機器學習很快成為遙感社區的一個重要工具。現在它被用於各種各樣的項目,從無監督的衛星圖像場景分類(Li,et al. 2016)到澳大利亞本土森林的分類(Shang & Chisholm,2014)。現在我們來看看典型的機器學習工作流。

3 .項目機器學習工作流程

讓自己熟悉所涉及的工作流是很重要的。機器學習也有一個工作流,這在所有基於機器學習的項目中都是常見的。

一文讀懂機器學習及其在遙感中的應用

收集數據

清理數據

模型構建&選擇正確的算法

從結果中獲得真知灼見

可視化的數據

在遙感技術中,人們主要利用衛星或無人機採集數據。數據清理是在我們的數據集不完整或缺少值的時候出現的,而算法的選擇涉及到要了解其中一個要解決的問題(稍後再討論)。如果一個人只是為了預測而做模型,而不是為了獲得真知灼見,那麼這個工作流就會在這裡結束,一個人開始在生產中實現訓練的模型。然而,如果一個人正在寫一篇研究論文,或者想要獲得真知灼見,那麼你就可以用圖形庫繪製出結果,並從圖表數據中得出真知灼見。我們將對數據清洗和模型構建部分進行分析。

3.1數據清理

這個過程包括清理文本或基於圖像的數據,並使數據易於管理(有時可能涉及減少與記錄相關的變量的數量)。

3.1.1文本數據

通常情況下,可能會在數據集中遇到丟失的值。一個人必須決定是否嘗試使用鄰近的數據“猜測”丟失的數據,或者完全刪除這個特定的記錄。刪除記錄似乎是一個可行的選擇,但如果數據集已經很小,那麼它可能不可行。因此,人們不得不求助於填充不完整的數據單元。有多種方法可以做到這一點,但最簡單的方法是取相鄰的值並計算平均值。

3.1.2圖像數據

數據清理還涉及操縱圖像,這些圖像可能包含一些可能干擾一個人的分類算法的工件。Nath et al .(2010)在他們的論文中關於水體區域的提取解決了這個問題。它們所包含的圖像可以很容易地與水體混淆。他們通過計算圖像的熵來部分地解決了這個問題,然後用它來分割圖像。熵指的隨機性。與周圍環境相比,水體的隨機性較小,因此可以根據像素顏色的差異來分割圖像,從而提取水體面積。在其他實例中,圖像數據集可能包含一些模糊的圖像,這些圖像會嚴重影響訓練階段算法的準確性。需要在數據清理步驟中去掉這些圖像。

3.1.3多個特性

當人們在遙感領域記錄數據時,基本上是記錄多光譜或高光譜數據(商,et al. 2014)。這意味著每個記錄將有很多變量。如果一個人試圖繪製數據集,你可能無法理解它,因為如果一個人繪製了過多的變量,就會有很多成對的相關性。為了更有意義地解釋數據,我們需要一些方法來減少變量的數量。這就是主成分分析(PCA)出現的地方——它將把變量的數量減少到幾個可解釋的線性的數據組合。每一個線性組合都對應一個主成分。有許多可用的工具可以幫助PCA。如果使用著名的scikit-學習庫,就可以使用PCA功能。

3.2機器學習算法的類型

機器學習算法有三大類。一是監督機器學習,二是無監督機器學習,三是加強學習。監督和非監督的區別在於使用監督算法,有一個數據集包含的輸出列而在使用無監督算法,一個只有一個巨大的數據集,它的職責是集群算法基於關係數據集到各種不同的類之間已經確定不同的記錄。強化學習略有不同。在強化學習中,一個提供環境的算法,算法在該環境中做出決策。它不斷改進自己的每一個決定,根據它最後決定 反饋。我們現在將討論在遙感中使用的三種著名算法。

3.2.1隨機森林

由於其分類的準確性,隨機森林算法在遙感社區(比利時,et al. 2016)越來越受歡迎。這些是集成分類器,基本上意味著他們利用下面的多個決策樹。RF分類器受歡迎的一個主要原因是它們有助於緩解高維問題。它們提供了一個可變的重要性(VI),可以減少高光譜數據的維數。變量的重要性本質上是衡量一個特定輸入的變化對輸出的影響。

3.2.2支持向量機

SVMs是監督學習模型,可用於迴歸和分類問題。它們主要用於分類問題。他們的工作方式是在一個n維空間(特徵)中繪製的點(特徵),然後用一個超平面來劃分這些點。從森林分類(商,X & Chisholm,2014)到多光譜遙感圖像分割(Mitra,et al. 2004),在遙感中幾乎所有類型的分類問題都使用SVMs。就像其他算法一樣,他們的成功取決於問題的性質,一個人必須分別測試每個算法,然後根據每個算法的性能做出決定。

3.2.3人工神經網絡

神經網絡是一種機器學習算法,它試圖模仿我們大腦工作的方式。神經網絡(NN)在遙感上的第一個應用於1988年完成(Kanellopoulos和Wilkinson 1997)。人工神經網絡是一種神經網絡。ANNs是在計算機上進行的生物激發的模擬,在計算機上執行某些特定的任務,如模式識別、聚類、分類等。由於人工神經網絡技術上的進步,它們的受歡迎程度增加了很多,一個例子是AlphaGo擊敗了世界圍棋冠軍。這是以前從未做過的,而且被認為是一個偉大的壯舉。精確的土地覆蓋分類主要是由統計分類器來完成的,但現在人工神經網絡已經取代了它們的位置,因為它提供了一種準確的方法來對土地覆蓋和地球物理特徵進行分類,而不必依賴於統計假設或程序。人工神經網絡以最少的輸入集“學習”不同的圖像模式。它們也被稱為黑盒算法,因為通常很難弄清楚人工神經網絡是如何計算輸出的。

4.過度擬合和偏見

大多數時候,當你在開發一個模型來預測、分類圖像時,你有一個大數據集來訓練和測試你的算法。我們將數據集分成大約75:25的比例,其中75%的數據用於培訓,25%用於評估模型經過培訓後的性能。75:25不是硬比;您可以使用任何其他數據集來實現您的想象。您需要注意的惟一問題是,數據集的訓練部分應該對整個數據集有一個不帶偏見的表示,並且與數據集的測試部分相比,它不應該太小。無偏見意味著它不應該只有一種類型的記錄從數據集,而且應該有幾乎所有類型的記錄,這是數據集的一部分,這樣模型就會接受不同類型的輸入。如果訓練數據集太小,那麼您可能無法得到可靠的預測,因為模型並沒有針對每種不同類型的輸入進行培訓。

過度擬合是另一個你需要注意的問題。過度擬合模型通常需要建立一個過於複雜的模型來解釋研究數據中的特性和異常值。這意味著,如果你使用相同類型的數據(它的數據類型已經訓練)評估模型,你會得到一個非常高的預測、分類精度。然而,如果你只是修改一些輸入,(這模型沒有見過),那麼,預測、分類精度就會下降。你可以通過使用更大的數據集來修復過度擬合,並適當地分割數據集。此外,減少模型定義的複雜性是有益的,這樣就不會對所有極端的邊界情況進行分類。

5.哪個算法是最好的?

這個問題的答案取決於一個人想要解決的問題。在某些情況下,當您有多個維度但記錄有限時,SVM可能會更好地工作。如果你有很多的記錄,但很少的維度(特性),神經網絡(NN)可能產生更好的預測/分類精度。人們經常需要在你的數據集上測試多種算法,然後選擇最有效的算法。通常,需要為不同的算法調整各種參數(i)。對射頻、隱藏層數、神經網絡神經元的數量以及對SVMs的“決策函數形狀”等進行了研究。很多時候,將多個算法組合在一起可以獲得更好的準確性,這就是所謂的合奏。還可以將SVM和神經網絡、SVM和RF(可能性無窮)組合起來,以提高預測精度。再次,須測試多個合奏以選擇最好的合奏。

同樣重要的是要注意,預測精度可能會改變根據特定功能試圖使用分類、預測的目的而改變。例如,Shang和Chisholm(2014)討論瞭如何將澳大利亞本土森林物種分類,他們決定使用最先進的遙感算法。在樹葉、樹冠和社區層面對樹木進行分類。他們測試了各種算法(SVM、AdaBoost和Random Forest),並發現每種算法在不同級別上都優於其他算法。在葉級,隨機森林獲得了最佳分類精度(94.7%),支持向量機在冠層(84.5%)和社區水平(75.5%)的表現優於其他算法。

另一個影響算法選擇的因素是數據是否線性可分。例如,線性分類算法(SVM,logistic迴歸等)期望數據可以被線性空間中的直線分割。假設數據是線性可分的,可能適用於大多數情況,但在某些場景下是正確的,並會降低預測/分類精度。因此,我們需要確保使用的算法能夠處理可用的數據。

不可能只看一種算法,從理論上決定它是否會為你的數據集產生最好的結果,因為很多機器學習算法都是黑盒算法。這意味著很難看出算法是如何達到特定的結果的。因此,首先根據問題的類型來縮小算法選擇的範圍,然後在數據集的一部分應用縮小算法,看看哪一種性能最好。

6.結論

一直以來,從遙感數據進行信息提取是一個長期的遙感科學難題。遙感圖像分類是遙感圖像信息處理中最基本的問題之一,其分類技術是遙感應用系統中的關鍵技術,遙感圖像分類方法的精度直接影響著遙感技術的應用發展。許多研究者一直在嘗試、改進,探索新的方法,以不斷提高遙感圖像自動分類算法的精度和速度。

本文基於機器學習,細細研讀了其在遙感中的應用。

1 .工作介紹

機器允許我們在短時間內進行復雜的計算。這導致出現了一個完全不同的研究領域,這個領域沒有被探索:教學機器通過觀察模式來預測可能的產生的結果。機器學習正在被用來解決各種各樣的問題,從股票市場預測到醫療配方的合成。

現在有很多著名的機器學習算法,每隔一天就會出現新的算法。一些廣為人知的算法是:

支持向量機

神經網絡

隨機森林

再鄰居

決策樹

K最近鄰算法

主成分分析

不同的重要步驟是讓機器預測可靠併產生可靠的數據。

2.遙感機器學習

一文讀懂機器學習及其在遙感中的應用

遙感機器學習的根源可以追溯到上世紀90年代。它最初被引入作為一種自動化知識基礎建設的遠程感知的方法。在他們的論文中,黃和延森(1997)討論瞭如何利用人類專家的最低輸入來建立一個知識基礎,然後創建決策樹來從專家系統的人工輸入中推斷規則。生成的規則被用於薩凡納河上的一個研究地點。結論詳細說明了與當時的傳統方法相比,機器學習輔助專家系統方法的準確度是最高的。在類似的發展之後,機器學習很快成為遙感社區的一個重要工具。現在它被用於各種各樣的項目,從無監督的衛星圖像場景分類(Li,et al. 2016)到澳大利亞本土森林的分類(Shang & Chisholm,2014)。現在我們來看看典型的機器學習工作流。

3 .項目機器學習工作流程

讓自己熟悉所涉及的工作流是很重要的。機器學習也有一個工作流,這在所有基於機器學習的項目中都是常見的。

一文讀懂機器學習及其在遙感中的應用

收集數據

清理數據

模型構建&選擇正確的算法

從結果中獲得真知灼見

可視化的數據

在遙感技術中,人們主要利用衛星或無人機採集數據。數據清理是在我們的數據集不完整或缺少值的時候出現的,而算法的選擇涉及到要了解其中一個要解決的問題(稍後再討論)。如果一個人只是為了預測而做模型,而不是為了獲得真知灼見,那麼這個工作流就會在這裡結束,一個人開始在生產中實現訓練的模型。然而,如果一個人正在寫一篇研究論文,或者想要獲得真知灼見,那麼你就可以用圖形庫繪製出結果,並從圖表數據中得出真知灼見。我們將對數據清洗和模型構建部分進行分析。

3.1數據清理

這個過程包括清理文本或基於圖像的數據,並使數據易於管理(有時可能涉及減少與記錄相關的變量的數量)。

3.1.1文本數據

通常情況下,可能會在數據集中遇到丟失的值。一個人必須決定是否嘗試使用鄰近的數據“猜測”丟失的數據,或者完全刪除這個特定的記錄。刪除記錄似乎是一個可行的選擇,但如果數據集已經很小,那麼它可能不可行。因此,人們不得不求助於填充不完整的數據單元。有多種方法可以做到這一點,但最簡單的方法是取相鄰的值並計算平均值。

3.1.2圖像數據

數據清理還涉及操縱圖像,這些圖像可能包含一些可能干擾一個人的分類算法的工件。Nath et al .(2010)在他們的論文中關於水體區域的提取解決了這個問題。它們所包含的圖像可以很容易地與水體混淆。他們通過計算圖像的熵來部分地解決了這個問題,然後用它來分割圖像。熵指的隨機性。與周圍環境相比,水體的隨機性較小,因此可以根據像素顏色的差異來分割圖像,從而提取水體面積。在其他實例中,圖像數據集可能包含一些模糊的圖像,這些圖像會嚴重影響訓練階段算法的準確性。需要在數據清理步驟中去掉這些圖像。

3.1.3多個特性

當人們在遙感領域記錄數據時,基本上是記錄多光譜或高光譜數據(商,et al. 2014)。這意味著每個記錄將有很多變量。如果一個人試圖繪製數據集,你可能無法理解它,因為如果一個人繪製了過多的變量,就會有很多成對的相關性。為了更有意義地解釋數據,我們需要一些方法來減少變量的數量。這就是主成分分析(PCA)出現的地方——它將把變量的數量減少到幾個可解釋的線性的數據組合。每一個線性組合都對應一個主成分。有許多可用的工具可以幫助PCA。如果使用著名的scikit-學習庫,就可以使用PCA功能。

3.2機器學習算法的類型

機器學習算法有三大類。一是監督機器學習,二是無監督機器學習,三是加強學習。監督和非監督的區別在於使用監督算法,有一個數據集包含的輸出列而在使用無監督算法,一個只有一個巨大的數據集,它的職責是集群算法基於關係數據集到各種不同的類之間已經確定不同的記錄。強化學習略有不同。在強化學習中,一個提供環境的算法,算法在該環境中做出決策。它不斷改進自己的每一個決定,根據它最後決定 反饋。我們現在將討論在遙感中使用的三種著名算法。

3.2.1隨機森林

由於其分類的準確性,隨機森林算法在遙感社區(比利時,et al. 2016)越來越受歡迎。這些是集成分類器,基本上意味著他們利用下面的多個決策樹。RF分類器受歡迎的一個主要原因是它們有助於緩解高維問題。它們提供了一個可變的重要性(VI),可以減少高光譜數據的維數。變量的重要性本質上是衡量一個特定輸入的變化對輸出的影響。

3.2.2支持向量機

SVMs是監督學習模型,可用於迴歸和分類問題。它們主要用於分類問題。他們的工作方式是在一個n維空間(特徵)中繪製的點(特徵),然後用一個超平面來劃分這些點。從森林分類(商,X & Chisholm,2014)到多光譜遙感圖像分割(Mitra,et al. 2004),在遙感中幾乎所有類型的分類問題都使用SVMs。就像其他算法一樣,他們的成功取決於問題的性質,一個人必須分別測試每個算法,然後根據每個算法的性能做出決定。

3.2.3人工神經網絡

神經網絡是一種機器學習算法,它試圖模仿我們大腦工作的方式。神經網絡(NN)在遙感上的第一個應用於1988年完成(Kanellopoulos和Wilkinson 1997)。人工神經網絡是一種神經網絡。ANNs是在計算機上進行的生物激發的模擬,在計算機上執行某些特定的任務,如模式識別、聚類、分類等。由於人工神經網絡技術上的進步,它們的受歡迎程度增加了很多,一個例子是AlphaGo擊敗了世界圍棋冠軍。這是以前從未做過的,而且被認為是一個偉大的壯舉。精確的土地覆蓋分類主要是由統計分類器來完成的,但現在人工神經網絡已經取代了它們的位置,因為它提供了一種準確的方法來對土地覆蓋和地球物理特徵進行分類,而不必依賴於統計假設或程序。人工神經網絡以最少的輸入集“學習”不同的圖像模式。它們也被稱為黑盒算法,因為通常很難弄清楚人工神經網絡是如何計算輸出的。

4.過度擬合和偏見

大多數時候,當你在開發一個模型來預測、分類圖像時,你有一個大數據集來訓練和測試你的算法。我們將數據集分成大約75:25的比例,其中75%的數據用於培訓,25%用於評估模型經過培訓後的性能。75:25不是硬比;您可以使用任何其他數據集來實現您的想象。您需要注意的惟一問題是,數據集的訓練部分應該對整個數據集有一個不帶偏見的表示,並且與數據集的測試部分相比,它不應該太小。無偏見意味著它不應該只有一種類型的記錄從數據集,而且應該有幾乎所有類型的記錄,這是數據集的一部分,這樣模型就會接受不同類型的輸入。如果訓練數據集太小,那麼您可能無法得到可靠的預測,因為模型並沒有針對每種不同類型的輸入進行培訓。

過度擬合是另一個你需要注意的問題。過度擬合模型通常需要建立一個過於複雜的模型來解釋研究數據中的特性和異常值。這意味著,如果你使用相同類型的數據(它的數據類型已經訓練)評估模型,你會得到一個非常高的預測、分類精度。然而,如果你只是修改一些輸入,(這模型沒有見過),那麼,預測、分類精度就會下降。你可以通過使用更大的數據集來修復過度擬合,並適當地分割數據集。此外,減少模型定義的複雜性是有益的,這樣就不會對所有極端的邊界情況進行分類。

5.哪個算法是最好的?

這個問題的答案取決於一個人想要解決的問題。在某些情況下,當您有多個維度但記錄有限時,SVM可能會更好地工作。如果你有很多的記錄,但很少的維度(特性),神經網絡(NN)可能產生更好的預測/分類精度。人們經常需要在你的數據集上測試多種算法,然後選擇最有效的算法。通常,需要為不同的算法調整各種參數(i)。對射頻、隱藏層數、神經網絡神經元的數量以及對SVMs的“決策函數形狀”等進行了研究。很多時候,將多個算法組合在一起可以獲得更好的準確性,這就是所謂的合奏。還可以將SVM和神經網絡、SVM和RF(可能性無窮)組合起來,以提高預測精度。再次,須測試多個合奏以選擇最好的合奏。

同樣重要的是要注意,預測精度可能會改變根據特定功能試圖使用分類、預測的目的而改變。例如,Shang和Chisholm(2014)討論瞭如何將澳大利亞本土森林物種分類,他們決定使用最先進的遙感算法。在樹葉、樹冠和社區層面對樹木進行分類。他們測試了各種算法(SVM、AdaBoost和Random Forest),並發現每種算法在不同級別上都優於其他算法。在葉級,隨機森林獲得了最佳分類精度(94.7%),支持向量機在冠層(84.5%)和社區水平(75.5%)的表現優於其他算法。

另一個影響算法選擇的因素是數據是否線性可分。例如,線性分類算法(SVM,logistic迴歸等)期望數據可以被線性空間中的直線分割。假設數據是線性可分的,可能適用於大多數情況,但在某些場景下是正確的,並會降低預測/分類精度。因此,我們需要確保使用的算法能夠處理可用的數據。

不可能只看一種算法,從理論上決定它是否會為你的數據集產生最好的結果,因為很多機器學習算法都是黑盒算法。這意味著很難看出算法是如何達到特定的結果的。因此,首先根據問題的類型來縮小算法選擇的範圍,然後在數據集的一部分應用縮小算法,看看哪一種性能最好。

6.結論

一文讀懂機器學習及其在遙感中的應用

在本文中,我們研究了機器學習是什麼,它是如何首先被引入到遠程感知的世界,典型的工作流是什麼樣的,以及如何使用機器學習來解決什麼樣的問題。機器學習有著光明的未來,因為越來越多的人正在學習機器學習的基本知識,並將其應用於日常工作和研究中。新的算法每隔一天就會出現,分類的準確率也隨之提高。這些問題在遙感(測繪地皮)中似乎很困難,有時甚至是不可能的,但每天都被新出現的算法解決。在不久的將來,世界上大多數的分析工作將由機器學習算法完成。

相關推薦

推薦中...