機器學習三大類別中常用的10大算法

機器學習人工智能隨機森林可視化一米智能觀一米智能觀 2017-08-27

機器學習三大類別中常用的10大算法

隨著大數據的迅速發展，機器學習變得越來越重要，它有力地處理大量數據，做出準確的預測。

從廣泛的概念來說，機器學習是人工智能的一個子集。人工智能旨在使計算機更智能化，而機器學習已經證明了如何做到這一點。簡而言之，機器學習是人工智能的應用。通過使用從數據中反覆學習到的算法，機器學習可以改進計算機的功能，而無需進行明確的編程。

如果你是一個數據科學家或機器學習的狂熱愛好者，你可以根據機器學習算法的類別來學習。機器學習算法主要有三大類：監督學習、無監督學習和強化學習。

監督學習

使用預定義的“訓練示例”集合，訓練系統，便於其在新數據被饋送時也能得出結論。系統一直被訓練，直到達到所需的精度水平。

無監督學習

給系統一堆無標籤數據，它必須自己檢測模式和關係。系統要用推斷功能來描述未分類數據的模式。

強化學習

強化學習其實是一個連續決策的過程，這個過程有點像有監督學習，只是標註數據不是預先準備好的，而是通過一個過程來回調整，並給出“標註數據”。

機器學習三大類別中常用的算法如下：

機器學習三大類別中常用的10大算法

1. 線性迴歸

工作原理：該算法可以按其權重可視化。但問題是，當你無法真正衡量它時，必須通過觀察其高度和寬度來做一些猜測。通過這種可視化的分析，可以獲取一個結果。

迴歸線，由Y = a * X + b表示。

Y =因變量；

a=斜率；

X =獨立變量；

b=截距。

通過減少數據點和迴歸線間距離的平方差的總和，可以導出係數a和b。

2. 邏輯迴歸

根據一組獨立變量，估計離散值。它通過將數據匹配到logit函數來幫助預測事件。

下列方法用於臨時的邏輯迴歸模型:

添加交互項。
消除功能。
正則化技術。
使用非線性模型。

3. 決策樹

利用監督學習算法對問題進行分類。決策樹是一種支持工具，它使用樹狀圖來決定決策或可能的後果、機會事件結果、資源成本和實用程序。根據獨立變量，將其劃分為兩個或多個同構集。

決策樹的基本原理：

機器學習三大類別中常用的10大算法

優點：與迴歸一樣，決策樹組合在實踐中表現也很好。由於它們的分層結構，它們對離群值、可伸縮性和自然模型的非線性決策邊界具有魯棒性。

弱點：無約束，單個樹容易過度擬合，但這可以通過集成方法來緩解。

4. 支持向量機（SVM）

基本原理（以二維數據為例）：如果訓練數據是分佈在二維平面上的點，它們按照其分類聚集在不同的區域。基於分類邊界的分類算法的目標是，通過訓練，找到這些分類之間的邊界（直線的――稱為線性劃分，曲線的――稱為非線性劃分）。對於多維數據（如N維），可以將它們視為N維空間中的點，而分類邊界就是N維空間中的面，稱為超面（超面比N維空間少一維）。線性分類器使用超平面類型的邊界，非線性分類器使用超曲面。

機器學習三大類別中常用的10大算法

優點：SVM可以模擬非線性決策邊界，並且有很多內核可供選擇。它可用於防止過度擬合，特別是在高維空間中。

缺點：SVM的內存密集，調優的難度很大，並且不能很好地擴展到更大的數據集。目前在行業中，隨機森林通常優於SVM。

應用：

顯示廣告。
人類剪切位點識別（human splice site recognition）。
基於圖像的性別檢測。
大規模圖像分類等。

5. 樸素貝葉斯

樸素貝葉斯認為每個特徵都是獨立於另一個特徵的。即使在計算結果的概率時，它也會考慮每一個單獨的關係。

它不僅易於使用，而且能有效地使用大量的數據集，甚至超過了高度複雜的分類系統。

優點：儘管條件獨立性假設很少成立，但樸素貝葉斯模型在實踐中表現出色，特別是它們的簡單性。它們易於實現，可以與更多的數據集進行擴展。

弱點：由於簡單性，樸素貝葉斯模型經常在正確訓練和調整之前被以前的算法擊敗。

應用:

判斷垃圾郵件。
對新聞的類別進行分類，如科技、政治、運動。
判斷文本表達的感情是積極的還是消極的。
人臉識別。

6. KNN(K -最近鄰)

該算法適用於分類和迴歸問題。在數據科學行業中，它更常用來解決分類問題。

這個簡單的算法能夠存儲所有可用的案例，並通過對其k近鄰的多數投票來對任何新事件進行分類。然後將事件分配給與之匹配最多的類。一個距離函數執行這個測量過程。

優點：該算法適用於對樣本容量比較大的類域進行自動分類。

缺點：

在計算上是昂貴的（計算量比較大）。
變量應規範化。
數據需要預處理。

7. k – 均值

這種無監督算法用於解決聚類問題。數據集以這樣一種方式列在一個特定數量的集群中：所有數據點都是同質的，並且與其他集群中的數據是異構的。

優點：算法速度很快。

缺點：分組的數目k是一個輸入參數，不合適的k可能返回較差的結果。

集群是如何形成的:

該算法為每個集群選擇稱為centroid的點。
數據在最接近的centroid中形成集群。
新的centroid是基於現有的集群數據點創建的。
每個數據點之間的距離是確定的。這個過程會重複，直到中心不改變。

8. 隨機森林

機器學習三大類別中常用的10大算法

利用多棵決策樹對樣本進行訓練並預測的一種分類器被稱為隨機森林。為了根據其特性來分類一個新對象，每棵決策樹都被排序和分類，然後決策樹投票給一個特定的類，那些擁有最多選票的被森林所選擇。

以下是每棵樹種植和生長的方式:

如果在案例中有N個訓練集，那麼就會隨機選擇N個案例。
輸入變量是M。
樹會生長到最大水平，不經剪切和修剪。

9. 降維算法

在存儲和分析大量數據時，識別多個模式和變量是具有挑戰性的。維數簡化算法，如決策樹、因子分析、缺失值比、隨機森林等，有助於尋找相關數據。

10. 梯度提高和演算法

這些算法是在處理大量數據，以作出準確和快速的預測時使用的boosting算法。boosting是一種組合學習算法，它結合了幾種基本估計量的預測能力，以提高效力和功率。

綜上所述，它將所有弱或平均預測因子組合成一個強預測器。

結論

我們在這裡只討論了機器學習領域的基本理論，當然，這只是一些皮毛。

要將機器學習的例子中所包含的理論真正應用於真實生活，就要對本文所討論的主題有更深入地瞭解，必須理解它的複雜性。

機器學習就像一座迷宮，其中有許多微妙之處和陷阱，容易令人失去路徑。它看起來是一個完美的思考機器，其實它不是。基本理論的每一部分幾乎都可以被拿來無休止地測試和改變，結果往往很有趣。目前機器學習許多分支被置入更適用於特定問題的全新研究領域。

科技行業每天都在蓬勃發展，如果你對機器學習有興趣，那就應該考慮了。你會發現它非常有趣，同時你的事業也會加速發展。

（部分內容參考iamwire）

機器學習三大類別中常用的10大算法

相關推薦