'美林數據:如何快速完成一個數據挖掘分析項目?'

"
"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

美林數據:如何快速完成一個數據挖掘分析項目?


測試集評估結果:如下圖

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

美林數據:如何快速完成一個數據挖掘分析項目?


測試集評估結果:如下圖

美林數據:如何快速完成一個數據挖掘分析項目?


階段六:結果部署(deployment)

經過模型訓練和模型測試,得到了比較理想的預測模型。需要將模型的成果書面化,結合前幾個階段進行總結,形成數據“分析報告”。如果涉及到工程化應用,還需要將模型發佈成不同方式(調度、同步/異步服務API、實時服務等),供其它業務系統進行整合,形成最終的決策應用系統,需要“部署應用”。

分析報告

TempoAI洞察頁面,支持直接導出Word格式的完整挖掘流程建模分析報告。如下圖所示:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

美林數據:如何快速完成一個數據挖掘分析項目?


測試集評估結果:如下圖

美林數據:如何快速完成一個數據挖掘分析項目?


階段六:結果部署(deployment)

經過模型訓練和模型測試,得到了比較理想的預測模型。需要將模型的成果書面化,結合前幾個階段進行總結,形成數據“分析報告”。如果涉及到工程化應用,還需要將模型發佈成不同方式(調度、同步/異步服務API、實時服務等),供其它業務系統進行整合,形成最終的決策應用系統,需要“部署應用”。

分析報告

TempoAI洞察頁面,支持直接導出Word格式的完整挖掘流程建模分析報告。如下圖所示:

美林數據:如何快速完成一個數據挖掘分析項目?


部署應用

構建一個預測流程,利用訓練好的模型,然後把預測流程發佈,並部署為應用。

(1)構建預測流程

將要預測的數據作為數據源,讀取並利用已輸出的分類預測模型,構建預測流程。如下所示:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

美林數據:如何快速完成一個數據挖掘分析項目?


測試集評估結果:如下圖

美林數據:如何快速完成一個數據挖掘分析項目?


階段六:結果部署(deployment)

經過模型訓練和模型測試,得到了比較理想的預測模型。需要將模型的成果書面化,結合前幾個階段進行總結,形成數據“分析報告”。如果涉及到工程化應用,還需要將模型發佈成不同方式(調度、同步/異步服務API、實時服務等),供其它業務系統進行整合,形成最終的決策應用系統,需要“部署應用”。

分析報告

TempoAI洞察頁面,支持直接導出Word格式的完整挖掘流程建模分析報告。如下圖所示:

美林數據:如何快速完成一個數據挖掘分析項目?


部署應用

構建一個預測流程,利用訓練好的模型,然後把預測流程發佈,並部署為應用。

(1)構建預測流程

將要預測的數據作為數據源,讀取並利用已輸出的分類預測模型,構建預測流程。如下所示:

美林數據:如何快速完成一個數據挖掘分析項目?


(2)發佈預測流程

進入“部署”“-“發佈”,將預測流程發佈。

(3)構建調度

在“部署”-“應用”,將已發佈的預測流程構建調度任務。平臺提供任務調度器,可配置調度任務,將的一個或多個流程在指定的日期範圍內按一定的頻率定期執行,完成預測任務。如下所示:

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

美林數據:如何快速完成一個數據挖掘分析項目?


測試集評估結果:如下圖

美林數據:如何快速完成一個數據挖掘分析項目?


階段六:結果部署(deployment)

經過模型訓練和模型測試,得到了比較理想的預測模型。需要將模型的成果書面化,結合前幾個階段進行總結,形成數據“分析報告”。如果涉及到工程化應用,還需要將模型發佈成不同方式(調度、同步/異步服務API、實時服務等),供其它業務系統進行整合,形成最終的決策應用系統,需要“部署應用”。

分析報告

TempoAI洞察頁面,支持直接導出Word格式的完整挖掘流程建模分析報告。如下圖所示:

美林數據:如何快速完成一個數據挖掘分析項目?


部署應用

構建一個預測流程,利用訓練好的模型,然後把預測流程發佈,並部署為應用。

(1)構建預測流程

將要預測的數據作為數據源,讀取並利用已輸出的分類預測模型,構建預測流程。如下所示:

美林數據:如何快速完成一個數據挖掘分析項目?


(2)發佈預測流程

進入“部署”“-“發佈”,將預測流程發佈。

(3)構建調度

在“部署”-“應用”,將已發佈的預測流程構建調度任務。平臺提供任務調度器,可配置調度任務,將的一個或多個流程在指定的日期範圍內按一定的頻率定期執行,完成預測任務。如下所示:

美林數據:如何快速完成一個數據挖掘分析項目?


(4)構建服務

在“部署”-“應用”,用戶可將已發佈流程構建一個服務,根據流程數據源的不同,分為同步服務、異步服務和流服務。同步服務:支持第三方系統通過Thrift/Rest調用流程,實時返回預測結果。異步服務:支持第三方系統通過Rest調用流程,按照指定頻率定期執行,完成模型構建或數據預測,預測結果輸入到指定數據庫。流服務:開啟服務,當Kafka的隊列中有消息時,即可執行流程,完成對於流式數據的實時處理。

(5)服務調用

第三方系統可調用相應的API,通過在第三方系統輸入參數,調用服務,並返回服務的執行狀態。

調用方式:打開該服務的測試頁面,“下載示例代碼”、“下載SDK”。將下載的示例代碼文件中的代碼段複製粘貼,即可通過運行代碼調用該異步服務。調用接口可供營銷業務系統進行整合,形成最終的決策應用系統,給營銷外呼中心提供營銷名單,指導實際業務的開展。

(6)部署結果驗證

將預測分析產生的預測購買人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比結果如下:推薦外呼11天,撥打5877通電話(佔傳統外呼36.01%),得到意向客戶數1664個,是傳統外呼開展32天的整體意向客戶數的1.08倍。結合營銷活動的成本和成果兩個方面考慮,綜合效果提升3.14倍。

"
美林數據:如何快速完成一個數據挖掘分析項目?

來源: AskTempo

哪些在具體業務中,如何有效應用,快速落地一個項目應用實踐呢?今天我們將以一個行業實際案例為主,依據“數據挖掘方法論”“詳細可參閱歷史推文《數據挖掘方法論》”為大家詳細解析,如何快速完成一個項目應用實踐,通過數據挖掘技術和方法,獲取業務應用價值。

數據挖掘方法論為開展數據挖掘項目提供了一套完整的、高效的、質量可控的項目管理過程。CRISP-DM方法論將一個數據挖掘項目的生命週期分為六個階段,其中包括業務理解(businessunderstanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。


美林數據:如何快速完成一個數據挖掘分析項目?


那麼,在一個實際的數據挖掘工作中,如何落地實踐這套挖掘方法論呢?下面我們將以“公募基金精準營銷”為例,詳細介紹數據挖掘項目開展流程和步驟【建模工具採用:TempoAI完成】。

階段一:業務理解(businessunderstanding)

業務背景:券商發行的公募基金產品,傳統的營銷方式為外呼人員電話營銷。傳統電話營銷方式存在的問題主要有兩點:

  • 工作量巨大,因為是用全量客戶名單來打電話營銷:開展10萬人次外呼營銷任務,要4個外呼人員1年的工作量;
  • 意向成功率過低,平均接通率54%,意向成功率18.09%左右。


美林數據:如何快速完成一個數據挖掘分析項目?


涉及部門:信息技術部、營銷部、客服部(外呼中心)

業務目標:提升意向成功率,優化外呼營銷策略,切實增加意向成功用戶數,提高投入產出率。

分析方案:

  • 分類預測:構建潛客預測模型,預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。

分析成果驗證:將分析產生的預測會夠買的人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比外呼成功率,從而判斷分析成果是否顯著。

階段二:數據理解 (dataunderstanding)

收集的數據表信息包括:

  • 借記卡用戶基本信息表
  • 信用卡用戶基本信息表、用戶狀態標識代碼表
  • 信用卡卡片信息表、信用卡卡片代碼表、卡片狀態標識代碼表
  • 信用卡交易流水信息表
  • 用戶的業務信息表
  • 公共信息表:商戶代碼MCC碼錶、用戶職業代碼表等
  • 歷史外呼反饋信息表
  • 信用卡違約狀態及未還款的歷史數據
  • 設備信息

針對收集到的數據信息,進行數據理解

用戶特徵探索:待營銷用戶群體的分佈形態,營業部分佈,性別分佈,風險等級分佈及業務開通情況。

美林數據:如何快速完成一個數據挖掘分析項目?


階段三:數據準備(datapreparation)

數據準備工作包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。這裡主要進行了數據指標體系設計、建模所需字段的生成、缺失值處理等。

TempoAI數據處理:

美林數據:如何快速完成一個數據挖掘分析項目?


階段四:建立模型(modeling)

基於用戶基本信息如風險等級、開戶年限、年齡等,資產信息如總資產、近一年最大資產、近半年日均資產等,產品交易信息如股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例,構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,為券商提供精準營銷客戶名單。在TempoAI中構建的建模流程如下:

美林數據:如何快速完成一個數據挖掘分析項目?


建模步驟說明:

1、讀取數據

拖入關係數據庫輸入節點,選擇數據源,選擇購買公募基金用戶的歷史數據集,完成數據讀取。

2、設置角色

在設置角色節點,選擇參與模型訓練的變量設置自變量(影響因素)和因變量(預測變量)。

自變量為:用戶基本信息/資產信息及產品交易信息等字段;

因變量為:flag(是否購買公募基金,1代表購買,0代表不夠買)。

3、數據拆分

為了保證模型的可靠性,我們一般將原始數據集拆分成兩個或三個數據集,這裡我們拆分為兩部分:一部分用於訓練模型,另外一部分用於測試模型的泛化能力(預測能力)。如下圖所示,70%的數據作為訓練集 30%的數據作為測試集。

4、梯度提升決策樹

選擇一個分類算法,構建分類模型,這裡我們選擇梯度提升決策樹算法,將數據拆分後的訓練集接入算法,參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


5、訓練集分類評估

將算法的M端口和D端口連接一個分類評估節點,評估訓練集的預測效果。分類評估節點參數設置如下:

美林數據:如何快速完成一個數據挖掘分析項目?


6、模型利用

將算法輸出的M端口連接模型利用節點,同時將數據拆分後的測試集D端口接入模型利用,這裡將利用梯度提升決策樹產生的模型對測試數據集進行預測。

7、測試集分類評估

將模型利用輸出的M端口和D端口連接一個分類評估節點,評估測試集的預測效果。

8、模型輸出

將訓練好的模型輸出到模型庫。

9、連接END端點

完成流程構建,點擊執行。

階段五:評估模型(evaluation)

評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。

流程執行成功後,可在洞察頁面,查看流程執行的結果:

美林數據:如何快速完成一個數據挖掘分析項目?


這裡我們主要看分類模型評估結果及分類模型預測結果。

  • 點擊“梯度提升決策樹節點”查看分類模型內容及預測結果數據集:

下圖為模型內容:決策樹及層級說明信息

美林數據:如何快速完成一個數據挖掘分析項目?


下圖為預測結果數據集信息:可從業務角度評估預測結果的合理性。

美林數據:如何快速完成一個數據挖掘分析項目?


  • 點擊“分類評估節點”查看分類評估結果(包括訓練集評估和測試集評估)


訓練集評估結果:包括模型的準確率、混淆矩陣、ROC/PR、Lift曲線、Gains曲線、基尼係數 、K-S曲線。綜合各評估指標及曲線,模型評估效果較好。

美林數據:如何快速完成一個數據挖掘分析項目?


測試集評估結果:如下圖

美林數據:如何快速完成一個數據挖掘分析項目?


階段六:結果部署(deployment)

經過模型訓練和模型測試,得到了比較理想的預測模型。需要將模型的成果書面化,結合前幾個階段進行總結,形成數據“分析報告”。如果涉及到工程化應用,還需要將模型發佈成不同方式(調度、同步/異步服務API、實時服務等),供其它業務系統進行整合,形成最終的決策應用系統,需要“部署應用”。

分析報告

TempoAI洞察頁面,支持直接導出Word格式的完整挖掘流程建模分析報告。如下圖所示:

美林數據:如何快速完成一個數據挖掘分析項目?


部署應用

構建一個預測流程,利用訓練好的模型,然後把預測流程發佈,並部署為應用。

(1)構建預測流程

將要預測的數據作為數據源,讀取並利用已輸出的分類預測模型,構建預測流程。如下所示:

美林數據:如何快速完成一個數據挖掘分析項目?


(2)發佈預測流程

進入“部署”“-“發佈”,將預測流程發佈。

(3)構建調度

在“部署”-“應用”,將已發佈的預測流程構建調度任務。平臺提供任務調度器,可配置調度任務,將的一個或多個流程在指定的日期範圍內按一定的頻率定期執行,完成預測任務。如下所示:

美林數據:如何快速完成一個數據挖掘分析項目?


(4)構建服務

在“部署”-“應用”,用戶可將已發佈流程構建一個服務,根據流程數據源的不同,分為同步服務、異步服務和流服務。同步服務:支持第三方系統通過Thrift/Rest調用流程,實時返回預測結果。異步服務:支持第三方系統通過Rest調用流程,按照指定頻率定期執行,完成模型構建或數據預測,預測結果輸入到指定數據庫。流服務:開啟服務,當Kafka的隊列中有消息時,即可執行流程,完成對於流式數據的實時處理。

(5)服務調用

第三方系統可調用相應的API,通過在第三方系統輸入參數,調用服務,並返回服務的執行狀態。

調用方式:打開該服務的測試頁面,“下載示例代碼”、“下載SDK”。將下載的示例代碼文件中的代碼段複製粘貼,即可通過運行代碼調用該異步服務。調用接口可供營銷業務系統進行整合,形成最終的決策應用系統,給營銷外呼中心提供營銷名單,指導實際業務的開展。

(6)部署結果驗證

將預測分析產生的預測購買人員名單,提供給外呼中心,進行外呼推薦公募基金產品,最終將推薦名單外呼和傳統的外呼效果進行比對,對比結果如下:推薦外呼11天,撥打5877通電話(佔傳統外呼36.01%),得到意向客戶數1664個,是傳統外呼開展32天的整體意向客戶數的1.08倍。結合營銷活動的成本和成果兩個方面考慮,綜合效果提升3.14倍。

美林數據:如何快速完成一個數據挖掘分析項目?


【會員企業】美林數據

美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商,重點面向企業客戶提供數據資產管理、數據分析與挖掘、數據開發應用為主的大數據產品及增值解決方案,引領大數據應用和產業數據運營等創新服務模式。

公司專注數據價值發掘、深耕行業應用,以大數據、人工智能技術及產品創新應用為方向,構建企業核心競爭力。公司現已形成數據資源管理平臺(TempoDM)、數據可視化平臺(TempoBI)、人工智能平臺(TempoAI)系列大數據管理與分析應用系列產品,為企業級用戶提供一體化、一站式大數據服務。依託領先的產品和技術優勢,美林數據聚焦智能製造、智慧能源兩大核心領域,同時拓展智慧軍工、汽車裝配、家電製造、智慧水務、智慧金融等細分領域,致力於打造企業級大數據應用樣板,以數據驅動業務、探索行業數據運營新模式。

編輯:於騰凱

— 完 —

關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。

"

相關推薦

推薦中...