獨家|大數據與AI技術在金融科技的應用

獨家|大數據與AI技術在金融科技的應用

[導讀]本文選自百融金服CEO張韶峰和CRO季元於2017年9月14日晚在清華大數據“技術·前沿”系列講座——大數據與AI技術在金融科技的應用上的分享。兩位學長結合自己在金融行業和金融科技領域多年的探索,結合金融領域的反欺詐、信用風險識別、不良資產催收、精準營銷等業務場景,深入淺出地闡述對抗生成網絡、遷移學習、強化學習等方法的金融行業建模實踐。

後臺回覆關鍵詞“0914”,下載完整版講座PPT

獨家|大數據與AI技術在金融科技的應用

百融金服CEO張韶峰

獨家|大數據與AI技術在金融科技的應用

百融金服CRO季元

張韶峰:首先非常激動能夠回到母校跟各位校友,還有各位朋友,來分享這次報告。我們進入到金融科技領域是2012年,我們最早跟銀行交流,想推動我們公司用機器學習算法作為模型在銀行應用,銀行那時候習慣運用的算法叫邏輯迴歸算法(Logistic regression algorithm),是一種比較簡單的算法。但是我堅定地認為數據有用,至於有什麼用,其實想不清楚,只是後來遇到金融行業的大爆發、變革,才發現數據在金融領域的應用那麼直接。

金融領域一個非常重要的支柱就是信用體系。中國還有七八億有金融需求的人沒有信用記錄,這是制約中國所謂普惠金融,刺激小微企業發展、消費發展,這是屬於基礎設施的問題。

大數據應用分層

獨家|大數據與AI技術在金融科技的應用

從大數據行業來看,有些是共通的。

第一步,收集數據。

第二步,數據處理。把數據進行標準化,清洗髒數據、不準的數據,或者做一些脫敏。

第三步,數據降維。如果表格的每一行是一個用戶,一個表的列數多達50萬列,這是非常龐大的一個維度,處理起來會導致效率下降,需要做一些數據的降維,需要做一些衍生變量。

第四步,數據建模。金融裡有兩個模型最重要:第一類是營銷獲客模型,預測什麼人需要什麼樣的金融服務,主要是預測客戶的需求。第二類是風控模型。

第五步,大數據應用。不同的行業做的應用不同。

金融行業可以在哪些方面具體使用呢

獨家|大數據與AI技術在金融科技的應用

第一步,解決精準營銷。找好的而且有需求的客戶,這兩個標準要疊加。金融行業的精準營銷難度遠遠超過普通消費品,這是金融行業精準營銷的特殊性。

第二步准入。他如果來申請你的貸款,或者買你的保險,你能不能把他放進來?你得審批一次。比如你去銀行辦個貸款,或者辦一個信用卡,讓你填一大堆資料。

第三步,存量客戶的經營或者貸中管理。

第四步逾期。這是貸後管理。

從營銷、准入、經營、逾期,這四步每一步都可以充分使用大數據和人工智能算法來提升效率。

獨家|大數據與AI技術在金融科技的應用

我們完善了一套反欺詐引擎評分,評估你有多大概率會欺詐。規則是遇到什麼情況要採取什麼措施。模型是抽像出決策邏輯以及跟欺詐相關的數據。

我們完善了一套反欺詐引擎評分,評估你有多大概率會欺詐。規則是遇到什麼情況要採取什麼措施。模型是抽像出決策邏輯以及跟欺詐相關的數據。

獨家|大數據與AI技術在金融科技的應用

我們為金融機構提供定製化的服務,因為你的產品和你的客戶跟別的金融機構不可能一模一樣。我們的模型可以有差異化,數據的準備、初步篩選、交驗檢驗,篩選相關性比較高的變量、數據的分段,最後建立模型。

獨家|大數據與AI技術在金融科技的應用

我們用一些可視化的算法使金融機構和我們監管人員看得更清楚,規則有沒有命中,客群分佈怎麼樣。在客觀的分數段中,比如我們公司是300分到1000分,比如700分的人對應100個人裡只有3個人違約,而500分的人對應100個人裡頭有7個人違約,不同的分數段意味著不同的違約率,這個時候你就知道我應該給700分以上的放貸。這個評分對金融機構很重要,你算清楚每給500分的人放款一萬塊錢出去會虧多少錢,評分系統會幫你預測。

隨後,百融金服CRO季元先生與大家分享了具體的應用案例。

案例一:圖深度學習應用於團伙欺詐偵測

季元:百融在群體欺詐的跟蹤、反欺詐方面主要通過無監督-異常行為監測,還有通過監督學習-地理位置異常分析(Geohash)

,具體的實現方式是通過圖特徵學習算法。

獨家|大數據與AI技術在金融科技的應用

這是圖特徵學習算法大概的框架。因為我們輸入的是我們客戶圖的特徵,這張圖包括邊和點,圖的拓譜和節點的這些屬性構造了客戶的基本特徵。通過深度神經網絡,從這些基本特徵出發衍生出更復雜的特徵。最終我們輸出的是什麼?一個是衍生後的特徵,再一個是觀察,觀察為了從基礎端衍生數學特徵,把這個算法形成好東西移植到其他部分。

左邊這個表是我們常用的一些特徵算子。這個圖反映了某個局部的具體的階段,百融從DI特徵出發通過Faier做衍生,衍生出新的特徵。這個算法其實有四個優點:

第一它支持不同的屬性圖,因為通常我們的圖只是節點和邊,只能反映拓撲結構;

第二它能輸出複雜關係函數用於跨網絡遷移學習;

第三它能夠學習出稀疏特徵。

第四它支持並行,算法效率高。

獨家|大數據與AI技術在金融科技的應用

這是我們某個客戶在2017年1月到5月份的用戶申請數據,申請次數34萬,用戶數4.7萬,總共70個特徵。通過我們的算法識別出了它有12000多欺詐用戶,隸屬於238個團體。

案例二:強化學習應用於催收模型構建

獨家|大數據與AI技術在金融科技的應用

在你借了金融機構的錢之後,如果你一旦逾期不還錢,這個時候金融機構在內部是按照你逾期的時間給你劃分的,M1代表逾期一個月,M2是兩個月,在不同的逾期時間,它會給你不同的催收動作。

獨家|大數據與AI技術在金融科技的應用

我們應該從序列的觀點看,因為不同的人對不同動作的響應是不一樣的。實際上你每一步的動作都會影響到後續的結果,應該以整個過程的最大的回饋,來決定我們在什麼環節採取什麼樣的動作。這塊我們就把催收過程定義成一個馬爾科夫決策過程。

獨家|大數據與AI技術在金融科技的應用

通過強化學習來求解馬爾科夫決策過程。首先要定一個價格函數,其次就是你在不同時間段收回的錢,用折現因子折算到當前來看你的最大值,我們要求價值函數的最優點,這個算法是通過價值迭代來實現。

案例三:遷移學習應用於客群評分構建

獨家|大數據與AI技術在金融科技的應用

我們的信用評分體系包括一個通用評分加上6個客群評分,通用評分類似於芝麻評分。這個評分在金融機構是怎麼用的呢?我們可以看到這個圖,柱狀圖表示不同分數段人數的佔比,線圖是不同分數段人數的的違約率,我們看到最低的300分數段違約率達到20%以上,最高的700分以上的不到1%。所以一個金融機構如果選擇了500分以上的人,那麼就意味著500分左邊的這些人他都要拒絕掉,而且如果只要500分以上的人的不良率在8%以下,如果他想降低不良率,比如降低4%,那就意味著他要提高准入標準,可能把准入的門檻提高到600或者更高。

這是我們的6個客群評分,這個評分實際上對金融機構來講非常重要,因為大家希望我們把壞人全過濾掉,好人全放進來,這是不可能實現的。現實中我們的評分通常居於兩者之間,我們的目標是儘可能的靠近最好的那個部分。除了這7個標準評分之外我們還有定製產品,剛才邵峰介紹的給客戶做定製化的建模,因為好的客戶希望結合他的內部數據和我們百融數據一起構建一個專屬於他的評分,這樣效果會比標準評分更好。

獨家|大數據與AI技術在金融科技的應用

在信用評分構建的過程中存在一些現實問題,在講這些問題之前我先給大家簡單介紹一下什麼叫遷移學習。兩個基本概念:

第一個,域實際上包括兩個元素,X是特徵區間,這些變量的維度, P(X)是特徵空間上的概率分佈,實際上是我們的樣本和這些特徵的分佈。

第二個任務,任務包括一個標籤空間,是在樣本特徵空間上好或者壞甚至更多的內容,屬於監督學習的一部分。

我們知道域和標籤空間來求這個條件概率。

獨家|大數據與AI技術在金融科技的應用

在遷移學習裡面需要兩個域和目標,一個是源域和源任務,一個是目標域和目標任務。按照剛才定義我們現在有四種情況:

第一,源域的特徵空間和目標域的特徵空間不同;

第二,邊際概率分佈不同;

第三,標籤空間不同;

第四,條件概率不同。

這四種組合起來就是16個,但是現實生活中這16種組合不會都存在。包括比較典型的就是這三類:

第一種是線上客群和線下客群,它們的特點不一樣,因為線上客群我們能採集的特徵的維度更多;

第二種是同產品不同機構的客群,主要體現在邊際概率分佈和條件概率分佈;

第三種是同機構不同產品的客群,主要是特徵空間和條件概率不一樣。

獨家|大數據與AI技術在金融科技的應用

我們建模過程中碰到的比較現實的問題,有些客戶不會告訴你標籤空間,那這種情況下怎麼建模?

第一步,通過域適應算法對源目標域的特徵進行降維處理。

第二步,構造邊際分佈實驗。構造一個函數來刻畫源域和目標域的邊際分佈的差異,度量兩個概率分佈的差到底有多大。

第三步,策劃條件分佈實驗。識別源任務的條件概率和目標任務的條件概率的差。

第四步,基於前兩步構造目標函數做優化。

第五步,進行迭代運算。

案例四:知識圖譜應用於貸前反欺詐

知識圖譜本質上是一個語義網絡,在人工智能裡一直有兩個流派,一個叫連接主義,我們第一個案例裡面講的深度神經網絡屬於連接主義,它是模擬人腦的硬件結構,本質上是統計學。第二個流派叫符號主義,知識圖譜就歸屬於符號主義,它模擬的是人腦的推理方式,實際上是人腦軟件。這兩種流派實際上一直並行,上世紀五六十年代人工智能剛興起的時候是符號主義領先,近年來隨著計算能力的提升,連接主義開始突起。

獨家|大數據與AI技術在金融科技的應用

知識圖譜相當於你要把人的經驗做知識表示和推理,所以你要把經驗固化成知識圖譜,通過這些語義的運算來做反欺詐判斷。我們通常把推理分為:不一致性驗證;機構異常分析。

獨家|大數據與AI技術在金融科技的應用

未知性的驗證,比方說兩個人用的是同一個單位電話,但是寫的單位名稱和單位地址不一樣,根據我們經驗這不符合邏輯,通過知識圖譜能把這種欺詐方式識別出來。

獨家|大數據與AI技術在金融科技的應用

靜態分析像我們第一個案例裡面講的結構。動態分析,通常情況下人的行為特徵應該是穩定的,如果你短時間變化快的話,那我們認為你也有欺詐嫌疑。

獨家|大數據與AI技術在金融科技的應用

以上是我分享的主要內容,謝謝大家。

張韶峰先生畢業於清華大學,擁有清華大學電氣工程自動化學士、碩士學位。他有15年IT、大數據領域經驗,持續創業者,先後效力Oracle、ESS、IBM等國際一流的科技公司。他曾經創辦了專注於數據挖掘的公司天才博通,任執行副總裁;2009年與兩位合夥人共同創辦大數據技術與應用服務頂級公司百分點科技,目前該公司已佔領國內超90%的推薦引擎市場。2014年,張韶峰先生創辦專注服務於金融領域的大數據金融信息服務的公司百融金服,並擔任CEO。

季元先生是清華大學數學系博士,從事銀行風險管理近十年,諳熟金融風控量化管理、風險策略優化等業務,曾任中國光大銀行金融市場風險處處長,在金融行業的數據分析、平臺架構、模型研究和風險策略等方面具有深刻的理解和深入的研究。2017年加入百融金服擔任CRO,全面負責百融金服整體風控業務。

清華-青島數據科學研究院“技術•前沿”系列講座,以知識傳播為使命,分享大數據新技術與前沿挑戰;旨在介紹大數據面臨的新挑戰及各種前沿技術,與校內科研隊伍互動交流。更多精彩乾貨及線下活動,敬請關注THU數據派(ID:datapi)及姐妹號數據派THU(ID:DatapiTHU)。

百融金服正在招聘,有意向的同學後臺回覆“百融”查看招聘信息~

更多精彩請關注清華-青島數據科學研究院官方微信公眾號“THU數據派”後臺回覆關鍵詞“0914”,下載完整版講座PPT

相關推薦

推薦中...