'信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧'

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖3 使用頂端編碼來處理離群點

根據圖1所示的評分卡樣例,很明顯,每個特性都應該被分成不同的屬性(或組)。對這些特性進行分組是有原因的。

  • 深入瞭解特性和性能之間的關係。
  • 在非線性依賴關係上應用線性模型。
  • 深入瞭解風險預測者的行為,有助於制定更好的投資組合管理策略。

bining是一種用於此目的的適當方法。處理之後,我將每個值分配給它應該屬於的屬性,這也意味著所有數值都轉換為類別。下面是binning結果的一個例子。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖3 使用頂端編碼來處理離群點

根據圖1所示的評分卡樣例,很明顯,每個特性都應該被分成不同的屬性(或組)。對這些特性進行分組是有原因的。

  • 深入瞭解特性和性能之間的關係。
  • 在非線性依賴關係上應用線性模型。
  • 深入瞭解風險預測者的行為,有助於制定更好的投資組合管理策略。

bining是一種用於此目的的適當方法。處理之後,我將每個值分配給它應該屬於的屬性,這也意味著所有數值都轉換為類別。下面是binning結果的一個例子。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖4 使用Binning對“Age” 進行特徵分組

對所有特徵進行分組後,完成特徵工程。下一步是計算每個屬性的權重和每個特徵的信息值。如前所述,我使用binning將所有數值轉換為類別值。但是,我們不能用這些類別值來擬合模型,因此我們必須為這些組分配一些數值。WoE的目的正是為每一組分類變量分配一個唯一的值。信息值(IV)度量用於特徵選擇的特徵的預測能力。WoE的公式如下。這裡的“好”表示客戶不會有嚴重拖欠,目標變量等於0,“壞”表示客戶會有嚴重拖欠,目標變量等於1。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖3 使用頂端編碼來處理離群點

根據圖1所示的評分卡樣例,很明顯,每個特性都應該被分成不同的屬性(或組)。對這些特性進行分組是有原因的。

  • 深入瞭解特性和性能之間的關係。
  • 在非線性依賴關係上應用線性模型。
  • 深入瞭解風險預測者的行為,有助於制定更好的投資組合管理策略。

bining是一種用於此目的的適當方法。處理之後,我將每個值分配給它應該屬於的屬性,這也意味著所有數值都轉換為類別。下面是binning結果的一個例子。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖4 使用Binning對“Age” 進行特徵分組

對所有特徵進行分組後,完成特徵工程。下一步是計算每個屬性的權重和每個特徵的信息值。如前所述,我使用binning將所有數值轉換為類別值。但是,我們不能用這些類別值來擬合模型,因此我們必須為這些組分配一些數值。WoE的目的正是為每一組分類變量分配一個唯一的值。信息值(IV)度量用於特徵選擇的特徵的預測能力。WoE的公式如下。這裡的“好”表示客戶不會有嚴重拖欠,目標變量等於0,“壞”表示客戶會有嚴重拖欠,目標變量等於1。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

通常情況下,特徵分析報告的生成都是為了得到WoE和IV。在這裡,我用Python定義了一個函數來自動生成報告。例如,“Age”的特徵分析報告如圖5所示。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖3 使用頂端編碼來處理離群點

根據圖1所示的評分卡樣例,很明顯,每個特性都應該被分成不同的屬性(或組)。對這些特性進行分組是有原因的。

  • 深入瞭解特性和性能之間的關係。
  • 在非線性依賴關係上應用線性模型。
  • 深入瞭解風險預測者的行為,有助於制定更好的投資組合管理策略。

bining是一種用於此目的的適當方法。處理之後,我將每個值分配給它應該屬於的屬性,這也意味著所有數值都轉換為類別。下面是binning結果的一個例子。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖4 使用Binning對“Age” 進行特徵分組

對所有特徵進行分組後,完成特徵工程。下一步是計算每個屬性的權重和每個特徵的信息值。如前所述,我使用binning將所有數值轉換為類別值。但是,我們不能用這些類別值來擬合模型,因此我們必須為這些組分配一些數值。WoE的目的正是為每一組分類變量分配一個唯一的值。信息值(IV)度量用於特徵選擇的特徵的預測能力。WoE的公式如下。這裡的“好”表示客戶不會有嚴重拖欠,目標變量等於0,“壞”表示客戶會有嚴重拖欠,目標變量等於1。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

通常情況下,特徵分析報告的生成都是為了得到WoE和IV。在這裡,我用Python定義了一個函數來自動生成報告。例如,“Age”的特徵分析報告如圖5所示。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖5 “Age”的特徵分析報告

然後我做了一個條形圖來比較所有特徵的IV。在條形圖中,你可以看到最後兩個特徵“NumberOfOpenCreditLinesAndLoans”和“NumberRealEstateLoansOrLines”的IV值非常低,所以這裡我選擇了另外八個特性來進行模型擬合。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖3 使用頂端編碼來處理離群點

根據圖1所示的評分卡樣例,很明顯,每個特性都應該被分成不同的屬性(或組)。對這些特性進行分組是有原因的。

  • 深入瞭解特性和性能之間的關係。
  • 在非線性依賴關係上應用線性模型。
  • 深入瞭解風險預測者的行為,有助於制定更好的投資組合管理策略。

bining是一種用於此目的的適當方法。處理之後,我將每個值分配給它應該屬於的屬性,這也意味著所有數值都轉換為類別。下面是binning結果的一個例子。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖4 使用Binning對“Age” 進行特徵分組

對所有特徵進行分組後,完成特徵工程。下一步是計算每個屬性的權重和每個特徵的信息值。如前所述,我使用binning將所有數值轉換為類別值。但是,我們不能用這些類別值來擬合模型,因此我們必須為這些組分配一些數值。WoE的目的正是為每一組分類變量分配一個唯一的值。信息值(IV)度量用於特徵選擇的特徵的預測能力。WoE的公式如下。這裡的“好”表示客戶不會有嚴重拖欠,目標變量等於0,“壞”表示客戶會有嚴重拖欠,目標變量等於1。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

通常情況下,特徵分析報告的生成都是為了得到WoE和IV。在這裡,我用Python定義了一個函數來自動生成報告。例如,“Age”的特徵分析報告如圖5所示。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖5 “Age”的特徵分析報告

然後我做了一個條形圖來比較所有特徵的IV。在條形圖中,你可以看到最後兩個特徵“NumberOfOpenCreditLinesAndLoans”和“NumberRealEstateLoansOrLines”的IV值非常低,所以這裡我選擇了另外八個特性來進行模型擬合。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖6 每個特徵的預測能力

模型擬合以及評分卡分數計算

在特徵選擇之後,我用相應的WoE替換屬性。到目前為止,我得到了適合模型訓練的數據集。開發評分卡的模型是logistic迴歸模型,它是一種常用的二元分類模型。我用交叉驗證和網格搜索來優化參數。然後利用測試數據集對模型的預測精度進行檢驗。因為Kaggle不會給出目標變量的值,所以我必須在線提交我的結果以獲得準確性。為了展示數據處理的效果,我對模型進行了原始數據和處理後數據的訓練。基於Kaggle給出的結果,經過數據處理後,準確率從0.693956提高到0.800946。

最後一步是計算每個屬性的評分卡得分,並生成最終的評分卡。各屬性得分計算公式為:

Score = (β×WoE+ α/n)×Factor + Offset/n

其中:β — 給定包含某個屬性的特徵的邏輯迴歸係數α —邏輯迴歸的截距WoE — 每個屬性的證據權重n — 模型中的特徵數量Factor, Offset — 縮放參數

前四個參數已經計算過,是前一部分。下面的公式用於計算因子和偏移量。

  • Factor = pdo/Ln(2)
  • Offset = Score — (Factor × ln(Odds))

在這裡,pdo的意思是使機率翻倍,壞率已經在上面的特徵分析報告中計算出來了。如果評分卡的基礎機率為50:1時的分數為600分,pdo為20(機率為每增加20分翻一番),則因子和偏移量為:

Factor = 20/Ln(2) = 28.85Offset = 600- 28.85 × Ln (50) = 487.14

完成所有計算後,就完成了評分卡的開發過程。部分評分卡如圖7所示。

"
作者:Hongri Jia編譯:ronghuaiyang

導讀

對於金融行業的同學來說,風控是目前機器學習落地較成熟的場景之一,而風控中的信用評分卡更是應用廣泛,大家都熟知的芝麻分就是信用評分,那信用評分卡究竟是怎麼做的呢?我們今天通過一個非常簡單的例子來一探究竟!

信用評分是一個衡量人們信譽度的數字表達。銀行通常利用它作為一種支持信貸申請決策的方法。在這個博客中,我將討論如何使用Python (pandas, Sklearn)開發一個標準的評分卡,這是最流行和最簡單的信用評分形式,用來衡量客戶的信用價值。


信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

項目動機

如今,信譽度對每個人來說都是非常重要的,因為它被視為衡量一個人有多可靠的一個指標。在各種情況下,服務供應商首先需要評估客戶的歷史信用,然後再決定是否提供服務。然而,檢查完整的個人檔案並手工生成信用報告是非常耗時的。因此,信用評分就是為了這個目的而開發和應用的,因為它節省時間,易於理解。

生成信用評分的過程稱為信用評分,它廣泛應用於許多行業,尤其是銀行業。銀行通常用它來決定誰應該得到信貸,他們應該得到多少信貸,以及可以採取什麼操作策略來降低信貸風險。一般分為兩個主要部分:

  • 建立統計模型
  • 應用統計模型為信貸申請或現有信貸賬戶分配一個分數

這裡我將介紹最流行的信用評分方法,稱為評分卡。評分卡是信用評分最常見的形式,有兩個主要原因。首先,它很容易解釋給沒有相關背景和經驗的人,如客戶。其次,評分卡的開發過程是標準的,並且被廣泛的理解,這意味著公司不需要在它上面花很多錢。一個示例評分卡如下圖所示。稍後我將討論如何使用它。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖1 評分卡的例子

數據探索和特徵工程

現在我將給出一些關於如何開發評分卡的細節。我在這裡使用的數據集來自Kaggle競賽。詳細信息列在圖2中。第一個變量是目標變量,它是一個二元分類變量。剩下的變量就是特徵。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖2 數據字典

在深入瞭解數據集之後,我開始應用一些特徵工程方法。首先,我檢查每個特性是否包含缺失值,然後用中值來估算缺失值。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

接下來,我進行離群點的處理。通常,用於離群點處理的方法取決於離群點的類型。例如,如果離群值是由於機械誤差或測量過程中的問題造成的,則可以將其視為缺失數據。在這個數據集中,有一些非常大的值,但是它們都是合理的值。因此,我使用頂部和底部編碼來處理它們。在圖3中,你可以看到在應用頂部編碼之後,特性的分佈更加正常。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖3 使用頂端編碼來處理離群點

根據圖1所示的評分卡樣例,很明顯,每個特性都應該被分成不同的屬性(或組)。對這些特性進行分組是有原因的。

  • 深入瞭解特性和性能之間的關係。
  • 在非線性依賴關係上應用線性模型。
  • 深入瞭解風險預測者的行為,有助於制定更好的投資組合管理策略。

bining是一種用於此目的的適當方法。處理之後,我將每個值分配給它應該屬於的屬性,這也意味著所有數值都轉換為類別。下面是binning結果的一個例子。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖4 使用Binning對“Age” 進行特徵分組

對所有特徵進行分組後,完成特徵工程。下一步是計算每個屬性的權重和每個特徵的信息值。如前所述,我使用binning將所有數值轉換為類別值。但是,我們不能用這些類別值來擬合模型,因此我們必須為這些組分配一些數值。WoE的目的正是為每一組分類變量分配一個唯一的值。信息值(IV)度量用於特徵選擇的特徵的預測能力。WoE的公式如下。這裡的“好”表示客戶不會有嚴重拖欠,目標變量等於0,“壞”表示客戶會有嚴重拖欠,目標變量等於1。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

通常情況下,特徵分析報告的生成都是為了得到WoE和IV。在這裡,我用Python定義了一個函數來自動生成報告。例如,“Age”的特徵分析報告如圖5所示。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖5 “Age”的特徵分析報告

然後我做了一個條形圖來比較所有特徵的IV。在條形圖中,你可以看到最後兩個特徵“NumberOfOpenCreditLinesAndLoans”和“NumberRealEstateLoansOrLines”的IV值非常低,所以這裡我選擇了另外八個特性來進行模型擬合。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖6 每個特徵的預測能力

模型擬合以及評分卡分數計算

在特徵選擇之後,我用相應的WoE替換屬性。到目前為止,我得到了適合模型訓練的數據集。開發評分卡的模型是logistic迴歸模型,它是一種常用的二元分類模型。我用交叉驗證和網格搜索來優化參數。然後利用測試數據集對模型的預測精度進行檢驗。因為Kaggle不會給出目標變量的值,所以我必須在線提交我的結果以獲得準確性。為了展示數據處理的效果,我對模型進行了原始數據和處理後數據的訓練。基於Kaggle給出的結果,經過數據處理後,準確率從0.693956提高到0.800946。

最後一步是計算每個屬性的評分卡得分,並生成最終的評分卡。各屬性得分計算公式為:

Score = (β×WoE+ α/n)×Factor + Offset/n

其中:β — 給定包含某個屬性的特徵的邏輯迴歸係數α —邏輯迴歸的截距WoE — 每個屬性的證據權重n — 模型中的特徵數量Factor, Offset — 縮放參數

前四個參數已經計算過,是前一部分。下面的公式用於計算因子和偏移量。

  • Factor = pdo/Ln(2)
  • Offset = Score — (Factor × ln(Odds))

在這裡,pdo的意思是使機率翻倍,壞率已經在上面的特徵分析報告中計算出來了。如果評分卡的基礎機率為50:1時的分數為600分,pdo為20(機率為每增加20分翻一番),則因子和偏移量為:

Factor = 20/Ln(2) = 28.85Offset = 600- 28.85 × Ln (50) = 487.14

完成所有計算後,就完成了評分卡的開發過程。部分評分卡如圖7所示。

信用評分卡知道不?就是芝麻分那種東西,自己來做一個吧

圖7 部分特徵的最終評分卡

當你有新客戶到來時,你只需要根據數據在每個特徵中找到正確的屬性並得到分數。最終的信用評分可以計算為各特徵得分之和。例如,銀行有一個新的信用卡申請人,年齡45歲,負債率0.5,月收入5000美元。信用評分應該是:53 + 55 + 57 = 165。

為了開發更精確的記分卡,人們通常需要考慮更多的情況。例如,在人群中有一些被認定為“壞”的人,但是他們的申請被批准了,而有一些“好”的人被拒絕了。因此,拒絕推理應該包含在開發過程中。我不做這部分是因為它需要被拒絕案例的數據集,而這些數據在我的數據集中是沒有的。

原文鏈接:https://medium.com/henry-jia/how-to-score-your-credit-1c08dd73e2ed

更多文章,請關注微信公眾號:AI公園

"

相關推薦

推薦中...