'數據科學簡化:多元迴歸模型'

機器學習 可視化技術 小熊大學AI 2019-08-28
"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

數據科學簡化:多元迴歸模型

這種關係的概括可表示為:

y = f(x)。

這並不意味著任何幻想。這意味著:

將y定義為x的函數。即將因變量定義為自變量的函數。

如果因變量需要用多個自變量表示怎麼辦?廣義函數變為:

y = f(x,z) 即表示y作為x和z的一些函數/組合。

現在有個三維座標y軸,x軸和z軸。它可以繪製為:

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

數據科學簡化:多元迴歸模型

這種關係的概括可表示為:

y = f(x)。

這並不意味著任何幻想。這意味著:

將y定義為x的函數。即將因變量定義為自變量的函數。

如果因變量需要用多個自變量表示怎麼辦?廣義函數變為:

y = f(x,z) 即表示y作為x和z的一些函數/組合。

現在有個三維座標y軸,x軸和z軸。它可以繪製為:

數據科學簡化:多元迴歸模型

現在我們有多個維度(x和z),我們還有一個額外的維度,我們想將y表示為x和z的組合。

對於簡單的線性迴歸模型,直線將 y表示為x的函數,現在我們有一個額外的維度(z)。如果在線上添加其他額外的維度會發生什麼?它變成了一個平面。

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

數據科學簡化:多元迴歸模型

這種關係的概括可表示為:

y = f(x)。

這並不意味著任何幻想。這意味著:

將y定義為x的函數。即將因變量定義為自變量的函數。

如果因變量需要用多個自變量表示怎麼辦?廣義函數變為:

y = f(x,z) 即表示y作為x和z的一些函數/組合。

現在有個三維座標y軸,x軸和z軸。它可以繪製為:

數據科學簡化:多元迴歸模型

現在我們有多個維度(x和z),我們還有一個額外的維度,我們想將y表示為x和z的組合。

對於簡單的線性迴歸模型,直線將 y表示為x的函數,現在我們有一個額外的維度(z)。如果在線上添加其他額外的維度會發生什麼?它變成了一個平面。

數據科學簡化:多元迴歸模型

平面是將y表示為x和z的函數。推算線性迴歸方程,現在可以表示為:

y = m1x + m2z + c

  • y是因變量,即需要估計和預測的變量。
  • x是第一個自變量,即可控制的變量。這是第一個輸入。
  • m1是x1的斜率。它決定了直線(x)的角度。
  • z是第二個自變量,即可控的變量。這是第二個輸入。
  • m2是z的斜率。它確定直線的角度(z)。
  • c是截距。當x和z為0時確定y值的常量。

這是多元線性迴歸模型的起源,有多個輸入變量用於估計目標,具有兩個輸入變量的模型可表示為:

y =β01x12x2

讓我們更進一步。如果我們將三個變量作為輸入怎麼辦?人類可視化能力是有限的,它只能看到一個三維的。在機器學習領域,可以有很多維度。具有三個輸入變量的模型可表示為:

y =β01x12x23x3

多元迴歸模型的廣義方程可以是:

y =β01x12x2+ ...... +βnxn

準備數據

現在熟悉了多元線性迴歸模型的概念後讓我們回到費爾南多。

費爾南多向他的朋友收集到了更多數據。他要求他提供有關汽車其他特徵的更多數據。

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

數據科學簡化:多元迴歸模型

這種關係的概括可表示為:

y = f(x)。

這並不意味著任何幻想。這意味著:

將y定義為x的函數。即將因變量定義為自變量的函數。

如果因變量需要用多個自變量表示怎麼辦?廣義函數變為:

y = f(x,z) 即表示y作為x和z的一些函數/組合。

現在有個三維座標y軸,x軸和z軸。它可以繪製為:

數據科學簡化:多元迴歸模型

現在我們有多個維度(x和z),我們還有一個額外的維度,我們想將y表示為x和z的組合。

對於簡單的線性迴歸模型,直線將 y表示為x的函數,現在我們有一個額外的維度(z)。如果在線上添加其他額外的維度會發生什麼?它變成了一個平面。

數據科學簡化:多元迴歸模型

平面是將y表示為x和z的函數。推算線性迴歸方程,現在可以表示為:

y = m1x + m2z + c

  • y是因變量,即需要估計和預測的變量。
  • x是第一個自變量,即可控制的變量。這是第一個輸入。
  • m1是x1的斜率。它決定了直線(x)的角度。
  • z是第二個自變量,即可控的變量。這是第二個輸入。
  • m2是z的斜率。它確定直線的角度(z)。
  • c是截距。當x和z為0時確定y值的常量。

這是多元線性迴歸模型的起源,有多個輸入變量用於估計目標,具有兩個輸入變量的模型可表示為:

y =β01x12x2

讓我們更進一步。如果我們將三個變量作為輸入怎麼辦?人類可視化能力是有限的,它只能看到一個三維的。在機器學習領域,可以有很多維度。具有三個輸入變量的模型可表示為:

y =β01x12x23x3

多元迴歸模型的廣義方程可以是:

y =β01x12x2+ ...... +βnxn

準備數據

現在熟悉了多元線性迴歸模型的概念後讓我們回到費爾南多。

費爾南多向他的朋友收集到了更多數據。他要求他提供有關汽車其他特徵的更多數據。

數據科學簡化:多元迴歸模型

以下是他已經擁有的數據點:

  • make:汽車製造商。
  • fuelType:汽車使用的燃料類型。
  • nDoors:門的數量。
  • engineSize:汽車發動機的尺寸( 雖然現代社會中的發動機排量通常以升為單位測量,但較舊的發動機主要使用立方英寸來描述發動機尺寸 )。
  • price:汽車的價格。

他獲得了額外的數據:

  • horsePower:汽車的馬力。
  • peakRPM:峰值功率輸出的每分鐘轉數。
  • drivewheels:驅動方式
  • length:汽車的長度。
  • width: 汽車的寬度。
  • height:汽車的高度。

費爾南多現在想要建立另一個模型,根據額外的數據來預測價格。

他制定的多元迴歸模型是:

根據發動機尺寸,馬力,峰值轉速,長度,寬度和高度估算價格。

=> 價格 = f(發動機尺寸,馬力,峰值轉速,長度,寬度,高度)

=>價格=β01*engineSize+β2*horsePower+β3*peakRPM+β4*length+β5*width+β6*height

構建模型:

費爾南多將這些數據輸入他的統計數據包中計算參數。輸出如下:

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

數據科學簡化:多元迴歸模型

這種關係的概括可表示為:

y = f(x)。

這並不意味著任何幻想。這意味著:

將y定義為x的函數。即將因變量定義為自變量的函數。

如果因變量需要用多個自變量表示怎麼辦?廣義函數變為:

y = f(x,z) 即表示y作為x和z的一些函數/組合。

現在有個三維座標y軸,x軸和z軸。它可以繪製為:

數據科學簡化:多元迴歸模型

現在我們有多個維度(x和z),我們還有一個額外的維度,我們想將y表示為x和z的組合。

對於簡單的線性迴歸模型,直線將 y表示為x的函數,現在我們有一個額外的維度(z)。如果在線上添加其他額外的維度會發生什麼?它變成了一個平面。

數據科學簡化:多元迴歸模型

平面是將y表示為x和z的函數。推算線性迴歸方程,現在可以表示為:

y = m1x + m2z + c

  • y是因變量,即需要估計和預測的變量。
  • x是第一個自變量,即可控制的變量。這是第一個輸入。
  • m1是x1的斜率。它決定了直線(x)的角度。
  • z是第二個自變量,即可控的變量。這是第二個輸入。
  • m2是z的斜率。它確定直線的角度(z)。
  • c是截距。當x和z為0時確定y值的常量。

這是多元線性迴歸模型的起源,有多個輸入變量用於估計目標,具有兩個輸入變量的模型可表示為:

y =β01x12x2

讓我們更進一步。如果我們將三個變量作為輸入怎麼辦?人類可視化能力是有限的,它只能看到一個三維的。在機器學習領域,可以有很多維度。具有三個輸入變量的模型可表示為:

y =β01x12x23x3

多元迴歸模型的廣義方程可以是:

y =β01x12x2+ ...... +βnxn

準備數據

現在熟悉了多元線性迴歸模型的概念後讓我們回到費爾南多。

費爾南多向他的朋友收集到了更多數據。他要求他提供有關汽車其他特徵的更多數據。

數據科學簡化:多元迴歸模型

以下是他已經擁有的數據點:

  • make:汽車製造商。
  • fuelType:汽車使用的燃料類型。
  • nDoors:門的數量。
  • engineSize:汽車發動機的尺寸( 雖然現代社會中的發動機排量通常以升為單位測量,但較舊的發動機主要使用立方英寸來描述發動機尺寸 )。
  • price:汽車的價格。

他獲得了額外的數據:

  • horsePower:汽車的馬力。
  • peakRPM:峰值功率輸出的每分鐘轉數。
  • drivewheels:驅動方式
  • length:汽車的長度。
  • width: 汽車的寬度。
  • height:汽車的高度。

費爾南多現在想要建立另一個模型,根據額外的數據來預測價格。

他制定的多元迴歸模型是:

根據發動機尺寸,馬力,峰值轉速,長度,寬度和高度估算價格。

=> 價格 = f(發動機尺寸,馬力,峰值轉速,長度,寬度,高度)

=>價格=β01*engineSize+β2*horsePower+β3*peakRPM+β4*length+β5*width+β6*height

構建模型:

費爾南多將這些數據輸入他的統計數據包中計算參數。輸出如下:

數據科學簡化:多元迴歸模型

多元線性迴歸模型為價格估計提供以下等式。

價格= -85090 + 102.85 * engineSize + 43.79 *horsePower+ 1.52 *peakRPM - 37.91 *length+ 908.12 *width+ 364.33 *height

模型解讀:

多變量模型的解釋提供了每個自變量對因變量(目標)的影響。

請記住,該等式提供了對價格平均值 的估計,每個係數都用所有其他預測因子保持不變來解釋。

現在讓我們解釋係數。

  • 發動機尺寸:在所有其他預測變量保持不變的情況下,如果發動機尺寸增加一個單位,平均價格將上漲 102.85美元。
  • 馬力:在所有其他預測變量保持不變的情況下,如果馬力增加一個單位,平均價格上漲 43.79美元。
  • 峰值RPM:在所有其他預測變量保持不變的情況下,如果峰值RPM增加一個單位,平均價格將上漲 1.52美元。
  • 長度:在所有其他預測變量保持不變的情況下,如果長度增加一個單位,則平均價格下降 37.91美元(長度具有-ve係數)。
  • 寬度:在所有其他預測變量保持不變的情況下,如果寬度增加一個單位,平均價格將上漲 908.12美元
  • 高度:在所有其他預測變量保持不變的情況下,如果高度增加一個單位,平均價格上漲 364.33美元

模型評估

該模型已建成,所有係數都很重要嗎?哪些更重要?該模型解釋了多少變化?

"

本文中我們將繼續之前的文章繼續討論費爾南多的故事,想要買車的數據科學家。他使用簡單線性迴歸模型來估計汽車的價格。

數據科學簡化:多元迴歸模型

費爾南多創建的迴歸模型根據發動機尺寸預測價格。 使用一個自變量來預測一個因變量。

簡單線性迴歸模型的表述如下:

價格=β0+β1*發動機尺寸

統計包計算參數。線性方程估計如下:

價格= -6870.1 + 156.9*發動機尺寸

數據科學簡化:多元迴歸模型

這個模型在兩個方面進行了評估:

  • 穩健性 - 使用假設檢驗
  • 準確性 - 使用確定係數又稱R平方

回想一下,度量R平方解釋了模型預測值與實際平均值之間的方差百分比,這個值在0和1之間。值越高,模型可以越好地解釋方差。費爾南多創建的模型的R平方為0.7503,即訓練集上的75.03%。這意味著該模型可以解釋超過75%的變化。

然而,費爾南多想要做的更好。

  • 如果我可以為模型提供更多的輸入呢?它會提高準確性嗎?

費爾南多決定通過為模型提供更多輸入數據(即更多自變量)來增強模型。他現在已經進入了多元迴歸模型的世界。

概念

線性迴歸模型為監督學習提供了一種簡單的方法,它們簡單而有效。

回想一下,線性意味著以下內容:沿直線或近似直線排列或延伸。線性表明,因變量和自變量之間的關係可以用直線表示。

直線的方程是y = mx + c,一個維度是y軸,另一個維度是x軸。它可以繪製在二維平面中。它看起來像這樣:

數據科學簡化:多元迴歸模型

這種關係的概括可表示為:

y = f(x)。

這並不意味著任何幻想。這意味著:

將y定義為x的函數。即將因變量定義為自變量的函數。

如果因變量需要用多個自變量表示怎麼辦?廣義函數變為:

y = f(x,z) 即表示y作為x和z的一些函數/組合。

現在有個三維座標y軸,x軸和z軸。它可以繪製為:

數據科學簡化:多元迴歸模型

現在我們有多個維度(x和z),我們還有一個額外的維度,我們想將y表示為x和z的組合。

對於簡單的線性迴歸模型,直線將 y表示為x的函數,現在我們有一個額外的維度(z)。如果在線上添加其他額外的維度會發生什麼?它變成了一個平面。

數據科學簡化:多元迴歸模型

平面是將y表示為x和z的函數。推算線性迴歸方程,現在可以表示為:

y = m1x + m2z + c

  • y是因變量,即需要估計和預測的變量。
  • x是第一個自變量,即可控制的變量。這是第一個輸入。
  • m1是x1的斜率。它決定了直線(x)的角度。
  • z是第二個自變量,即可控的變量。這是第二個輸入。
  • m2是z的斜率。它確定直線的角度(z)。
  • c是截距。當x和z為0時確定y值的常量。

這是多元線性迴歸模型的起源,有多個輸入變量用於估計目標,具有兩個輸入變量的模型可表示為:

y =β01x12x2

讓我們更進一步。如果我們將三個變量作為輸入怎麼辦?人類可視化能力是有限的,它只能看到一個三維的。在機器學習領域,可以有很多維度。具有三個輸入變量的模型可表示為:

y =β01x12x23x3

多元迴歸模型的廣義方程可以是:

y =β01x12x2+ ...... +βnxn

準備數據

現在熟悉了多元線性迴歸模型的概念後讓我們回到費爾南多。

費爾南多向他的朋友收集到了更多數據。他要求他提供有關汽車其他特徵的更多數據。

數據科學簡化:多元迴歸模型

以下是他已經擁有的數據點:

  • make:汽車製造商。
  • fuelType:汽車使用的燃料類型。
  • nDoors:門的數量。
  • engineSize:汽車發動機的尺寸( 雖然現代社會中的發動機排量通常以升為單位測量,但較舊的發動機主要使用立方英寸來描述發動機尺寸 )。
  • price:汽車的價格。

他獲得了額外的數據:

  • horsePower:汽車的馬力。
  • peakRPM:峰值功率輸出的每分鐘轉數。
  • drivewheels:驅動方式
  • length:汽車的長度。
  • width: 汽車的寬度。
  • height:汽車的高度。

費爾南多現在想要建立另一個模型,根據額外的數據來預測價格。

他制定的多元迴歸模型是:

根據發動機尺寸,馬力,峰值轉速,長度,寬度和高度估算價格。

=> 價格 = f(發動機尺寸,馬力,峰值轉速,長度,寬度,高度)

=>價格=β01*engineSize+β2*horsePower+β3*peakRPM+β4*length+β5*width+β6*height

構建模型:

費爾南多將這些數據輸入他的統計數據包中計算參數。輸出如下:

數據科學簡化:多元迴歸模型

多元線性迴歸模型為價格估計提供以下等式。

價格= -85090 + 102.85 * engineSize + 43.79 *horsePower+ 1.52 *peakRPM - 37.91 *length+ 908.12 *width+ 364.33 *height

模型解讀:

多變量模型的解釋提供了每個自變量對因變量(目標)的影響。

請記住,該等式提供了對價格平均值 的估計,每個係數都用所有其他預測因子保持不變來解釋。

現在讓我們解釋係數。

  • 發動機尺寸:在所有其他預測變量保持不變的情況下,如果發動機尺寸增加一個單位,平均價格將上漲 102.85美元。
  • 馬力:在所有其他預測變量保持不變的情況下,如果馬力增加一個單位,平均價格上漲 43.79美元。
  • 峰值RPM:在所有其他預測變量保持不變的情況下,如果峰值RPM增加一個單位,平均價格將上漲 1.52美元。
  • 長度:在所有其他預測變量保持不變的情況下,如果長度增加一個單位,則平均價格下降 37.91美元(長度具有-ve係數)。
  • 寬度:在所有其他預測變量保持不變的情況下,如果寬度增加一個單位,平均價格將上漲 908.12美元
  • 高度:在所有其他預測變量保持不變的情況下,如果高度增加一個單位,平均價格上漲 364.33美元

模型評估

該模型已建成,所有係數都很重要嗎?哪些更重要?該模型解釋了多少變化?

數據科學簡化:多元迴歸模型

回顧關於 t-stat,p值和確定係數的定義的討論。這些概念也適用於多元迴歸模型。該模型的評估如下

  • 係數:所有係數均大於零,這意味著所有變量都對平均價格有影響。
  • t-value:除長度外,所有係數的t-value均顯著高於零。長度方面,t-stat為-0.70。這意味著汽車的長度可能不會對平均價格產生影響。
  • p-value:對於除長度外的所有變量,純粹隨機觀察p-value的概率非常低。長度的p-value為0.4854。這意味著觀察到的t-stat隨機發生的概率為48.54%。這個數字非常高。

回想一下關於R-squared如何幫助解釋模型中的變化的討論,當模型中加入更多的變量時,R-squared不會減小,它只會增加。然而,必須有一個平衡。調整後的R-squared力求保持平衡。調整後的R-squared是R-squared的一個修改版本,它根據模型中預測因子的數量進行了調整。調整後的R-squared補償了變量的增加,只有在新項增強了模型時才會增加。

  • 調整後的R-squared:R-squared的值是0.811。這意味著該模型可以解釋81.1%的訓練數據變化,比之前的模型(75.03%)要好。

根據這些度量,費爾南多得出以下結論:

  • 除了汽車的長度外,所有的變量都對價格有影響。
  • 汽車的長度對價格沒有明顯的影響。
  • 該模型解釋了81.1%的數據變化。

結論

費爾南多現在有一個更好的模型。然而,他很困惑。他知道汽車的長度不會影響價格。但他想知道:如何為模型構建選擇最佳變量集?有沒有什麼方法可以選擇最好的變量子集?

在以後的文章中我們將討論變量選擇方法。

"

相關推薦

推薦中...