只知道線性迴歸和邏輯迴歸？OUT！7種迴歸技術簡介及選擇方式

機器學習經濟技術數據學習DataLearner 2018-12-09

本文來自AnalyticsVidhya的一個分析。線性迴歸和邏輯迴歸通常是人們在預測建模中學習的第一個算法。由於受歡迎程度，許多分析師甚至認為他們是唯一的迴歸形式。更多的人認為他們是所有形式的迴歸分析中最重要的。

事實是，有無數形式的迴歸方法。每種形式都有其自身的重要性和最適合應用的特定條件。本文將以簡單的方式解釋了最常用的7種形式的迴歸方法。通過這篇文章，希望人們能夠形成迴歸廣度的概念，而不是僅僅對他們遇到的每個問題應用線性/邏輯迴歸，並希望它們能夠適合！

1、什麼是迴歸分析

迴歸分析是預測建模技術的一種形式，它研究因變量（目標）和自變量（預測變量）之間的關係。該技術用於預測、時間序列建模、查找變量之間的因果關係等。例如，通過迴歸可以研究疲勞駕駛與道路交通事故數量之間的關係。

迴歸分析是建模和分析數據的重要工具。在這裡，我們將曲線/線擬合到數據點，使得數據點距曲線或線的距離之間的差異最小化。

2、為什麼要使用迴歸分析

如上所述，迴歸分析估計兩個或更多變量之間的關係。讓我們通過一個簡單的例子理解這一點：

比方說，您想根據當前的經濟狀況估算公司的銷售增長率。您有最近的公司數據表明銷售增長約為經濟增長的2.5倍。利用這種洞察力，我們可以根據當前和過去的信息預測公司的未來銷售情況。

使用迴歸分析有很多好處：

首先，它可以表明因變量和自變量之間的重要關係。
其次，它還表示多個自變量對因變量的影響強度。

迴歸分析還允許我們比較在不同尺度上變量的影響，例如價格變化和促銷活動的數量的影響。這些優勢有助於市場研究人員/數據分析師/數據科學家消除和評估用於構建預測模型的最佳變量集。

3、有多少種迴歸方法

有各種各樣的迴歸技術可用於進行預測。這些技術主要由三個指標（自變量的數量，因變量的類型和迴歸線的形狀）驅動。我們將在以下部分詳細討論它們。

3.1、線性迴歸（Linear Regression）

它是最廣為人知的建模技術之一。線性迴歸通常是人們在學習預測建模時優先選擇的技術之一。在該技術中，因變量是連續的，自變量可以是連續的或離散的，並且迴歸線的性質是線性的。

線性迴歸使用最佳擬合直線（也稱為迴歸線）在因變量（Y）和一個或多個自變量（X）之間建立關係。

它由等式Y = a + b * X + e表示，其中a是截距，b是線的斜率，e是誤差項。該等式可用於基於給定的變量預測結果。

簡單線性迴歸和多元線性迴歸之間的區別在於，多元線性迴歸具有一個以上的獨立變量，而簡單線性迴歸只有1個獨立變量。

3.2、邏輯迴歸（Logistic Regression）

Logistic迴歸Y的值的範圍從0或者1。就不贅述了。

3.3、多項式迴歸（Polynomial Regression）

如果自變量的最高次大於1，那麼就是多項式分佈：

y = a + bx^2

多項式迴歸擬合的是一條曲線，不是直線。注意最高次越大擬合能力越強，但也容易造成過擬合。

3.4、逐步迴歸（Stepwise Regression）

當我們處理多個自變量時，會使用這種形式的迴歸。在這種技術中，自變量的選擇是在自動過程的幫助下完成的，該過程不涉及人為干預。

這是通過觀察R-square，t-stats和AIC metric等統計值來識別重要變量來實現的。逐步迴歸根據某個指定的標準，在每次訓練的時候增加或者減掉一個協方差變量來適配模型。

標準逐步迴歸做兩件事。它根據每個步驟的需要添加和刪除預測變量。正向選擇從模型中最重要的預測變量開始，併為每個步驟添加變量。向後消除從模型中的所有預測變量開始，並刪除每個步驟的最不重要變量。

該建模技術的目的是以最少的預測變量來最大化預測能力。它是處理數據集更高維度的方法之一。

3.5、嶺迴歸（Ridge Regression）

嶺迴歸是當數據遭受多重共線性（獨立變量高度相關）時使用的技術。在多重共線性中，即使最小二乘估計（OLS）是無偏的，它們的方差也很大，這使得結果遠離真實值。通過向迴歸估計添加一定程度的偏差，嶺迴歸可以減少標準誤差。

例如線性迴歸的公式如下

y = a + b * x

添加一個誤差項：

y = a + b * x + e

在線性方程中，預測誤差可以分解為兩個子分量。分別是偏差（bias）和方差（variance）。由於這兩個或兩個組件中的任何一個，可能發生預測錯誤。在這裡，我們將討論由於方差引起的錯誤。

嶺迴歸通過收縮參數λ（lambda）解決了多重共線性問題:

在這個等式中，我們有兩個組成部分。第一個是最小二乘項，另一個是β2（β平方）總和的λ，其中β是係數。這被添加到最小平方項，以便縮小參數使結果具有非常低的方差。詳細的嶺迴歸方法可以參考迴歸分析方法之嶺迴歸（Ridge Regression）

該回歸的假設與最小二乘迴歸相同，但不假設正態性。它會縮小系數的值，但不會達到零，這表明它沒有特徵選擇功能。這是一種正則化方法並使用l2正則化。

3.6、Lasso Regression

與嶺迴歸相似，Lasso（Least Absolute Shrinkage and Selection Operator，最小絕對收縮和選擇算子）也會對迴歸係數的絕對大小進行懲罰。此外，它還能夠降低線性迴歸模型的可變性並提高其準確性。請看下面的等式：

Lasso迴歸與嶺迴歸的不同之處在於它在懲罰函數中使用絕對值而不是二次方。這導致一些參數估計的結果為零。這導致可以對給定n個變量的進行變量選擇。

該回歸的假設與最小二乘迴歸相同，但不假設正態性
它將係數縮小到零（正好為零），這肯定有助於特徵選擇
這是一種正則化方法並使用l1正則化
如果預測變量組高度相關，則Lasso迴歸僅選擇其中一個並將其他預測變為零

3.7、彈性網絡迴歸（ElasticNet Regression）

ElasticNet是Lasso和Ridge Regression技術的混合體。它同時使用L1和L2進行訓練。當存在多個相關的特徵時，彈性網絡迴歸很有用。 Lasso很可能隨機選擇其中一種，而彈性網很可能同時選擇其中之一。

在Lasso和Ridge之間進行權衡的一個實際優勢是，它允許Elastic-Net在旋轉下繼承Ridge的一些穩定性。

它可以在高度相關的變量的情況下鼓勵群體效應
所選變量的數量沒有限制
它會遭受雙重收縮

4、如何選擇哪種迴歸技術

當你只知道一兩種技術時，生活通常很簡單。我所知道的其中一個培訓機構告訴他們的學生 - 如果結果是連續的 - 應用線性迴歸。如果是二進制 - 使用邏輯迴歸！但是，我們可以使用的選項數量越多，選擇合適的選項就越困難。迴歸模型也會發生類似的情況。

在多種類型的迴歸模型中，基於獨立變量和因變量的類型，數據中的維數以及數據的其他基本特徵來選擇最適合的技術是很重要的。以下是您應該選擇正確的迴歸模型的關鍵因素：

數據探索是構建預測模型的必然部分。在選擇正確的模型之前，應該是您的第一步，例如確定變量的關係和影響
為了比較不同模型的擬合優度，我們可以分析不同的指標，如參數的統計顯著性，R平方，調整後的r平方，AIC，BIC和誤差項。另一個是Mallow的Cp標準。這基本上通過將模型與所有可能的子模型（或仔細選擇它們）進行比較來檢查模型中的可能偏差。
交叉驗證是評估用於預測的模型的最佳方式。在這裡，您將數據集劃分為兩個組（訓練和驗證）。觀察值和預測值之間的簡單均方差可以為您提供預測準確度的度量。
如果您的數據集有多個混淆變量，則不應選擇自動模型選擇方法，因為您不希望同時將它們放在模型中。
這也取決於你的目標。與統計上著名的一些模型相比，可以發現功能較弱的模型易於實現。
迴歸正則化方法（Lasso，Ridge和ElasticNet）在數據集中變量之間具有高維度和多重共線性的情況下運行良好。

只知道線性迴歸和邏輯迴歸？OUT！7種迴歸技術簡介及選擇方式

相關推薦