恆昌:數億實體和數十億關係的圖數據庫在風控上應用

恆昌 NoSQL Neo4J 電子商務 未來網新聞 2017-06-15

近日,知名快遞公司順豐和電商巨頭阿里巴巴爭端甚囂塵上,這次爭端意味著“數據”已然成為商業必爭的“資產”。因此,伴隨大數據時代來臨,數據獲取、存儲、分析等一系列技術的研發和應用已經得到了眾多企業的關注。

作為大數據開發利用的重要組成部分,就數據存儲而言,圖數據庫是利用圖的特性來對數據進行存儲管理,並對傳統圖的概念進行了擴展。越來越成熟的數據模型,使得利用事物(即“節點”或“實體”)及事物之間的聯繫(即“邊”或“關係”)來對各類業務場景進行抽象變得更加容易。也正因為圖數據庫基於圖論的理論和算法實現,相對於關係型數據庫,它也更擅於處理網狀的複雜關係。此外,圖數據庫通常都支持對圖數據模型的增、刪、改、查(CRUD)方法,並較多地用於事務(OLTP)系統中,被應用系統實時訪問。

圖數據庫作為恆昌知識圖譜的底層存儲方案,是多方數據的知識融合及提煉後進行匯聚的場所,為恆昌豐富的服務線與數據技術間的承轉起著重要作用。由於Neo4j 是目前最成熟的圖數據庫之一,恆昌廣泛使用 Neo4j 作為知識圖譜底層圖數據持久方案,基於其優異的事務能力而提供實時的數據查詢功能。此外,恆昌還在 Titan、Gaffer 等分佈式圖數據庫或計算引擎上有著深入的研究。

目前,恆昌的圖數據庫已經融合了多方數據,包括業務系統主要服務線各階段的數據、用戶授權數據等。這些數據形成的實體規模已過億、形成的關係已多達數十億。隨著用戶數量的提升,這個數據還在持續增長。因此,基於圖數據庫開發的知識圖譜正在發揮著越來越大的作用,目前已經上線或待上線的技術平臺覆蓋了客戶失聯修復、反欺詐規則引擎、欺詐團伙調查等,近期還會覆蓋風險預警等方向。

1.欺詐團伙調查

圖數據庫能通過“實體”和“關係”這種簡單直觀的描述方法來表述現實世界中錯綜複雜的關聯關係。它可以提供逐層挖掘的方式,引導逐步深入分析各種關係;還可以快速呈現實體之間最新的關係變化,積累更新的知識和經驗;也可以清晰地呈現複雜關係間的聯絡線索,為判斷事件來龍去脈提供有效引導。此處,以恆昌的客戶為例,參考圖1中的客戶徐某(因數據安全的原因,部分信息作了塗抹,並對原有圖結構進行了簡化),如果僅考慮該客戶自己填寫的信息,雖然能看到一度關聯信息,但完全看不出該結構會有什麼問題,也無法進行深入調查。

恆昌:數億實體和數十億關係的圖數據庫在風控上應用

圖1客戶徐某借款時的聯繫人信息簡化圖

當關聯信息得到補充(相對於原進件聯繫人,補充了同事、鄰居、親屬、朋友等關係,還基於用戶授權數據進行了深度擴展)後,暫不考慮物品(如手機號、銀行賬號、地址等),僅考慮自然人,獲取徐某二度關係內同時在恆昌網貸平臺有借款行為的用戶,得到圖2(基於同樣原因數據有塗抹及簡化)的結果。該圖每一個圓都代表一位恆昌客戶,圖頂部的狀態說明了客戶當前所處狀態。觀察左下角以徐某為中心的四個客戶(已用紅框標出),他們剛好是所呈現圖的最大完全子圖,符合圖論中團的定義。再看除徐某外的三個客戶:兩個逾期、一個被拒。如果徐某是新入圖數據庫的借款人,從數學模型的角度看,幾乎可以直接判定拒絕。因為符合這種狀態的團,是欺詐團伙或是組團代辦的機率非常大。

恆昌:數億實體和數十億關係的圖數據庫在風控上應用

圖2客戶徐某補充關係類型後的一度及二度關聯信息

到這時工作並未完結,如果有需要,可以基於圖中的關係嘗試與幾位客戶聯繫以進行深入背景調查證實,調查的結論可以融合到圖數據庫中形成數據閉環,直接改善後續自動化預警的結果。

2.風險事件預警

儘管對欺詐團伙調查能取得不錯效果,但因其可能需要調查員隨時聯繫客戶或聯繫周邊人群以驗證調查員的推論,因此整體成本還是相當高的。為了解決這個問題,基於模型的風險事件預警就應運而生。如果說欺詐團伙調查是主動出擊,風險事件預警更像是被動防禦。

風險事件預警是通過模型生成一組類似上述欺詐團伙調查中出現的場景,給每一個場景一個相對低一些的初始置信度,後期通過不斷的反饋迭代來優化置信度。當一個新客戶到來之後,首先會將其信息整合到知識圖譜中。緊接著,該客戶會被規則引擎捕捉到,規則引擎會基於客戶信息從知識圖譜中提取一組特徵,由該特徵決定了引擎首先會觸發哪些場景,而這些場景的結論可能導致規則引擎又觸發另外一組場景。在滿足特定條件下,最終結果輸出,如果有相應的風險事件被觸發,則信息會送達相關團隊。

風險事件預警最有意思的地方在於,一個新客戶的到來,可能會導致一個早先客戶的風險事件被觸發。這主要是因為新客戶融入到知識圖譜中時帶進的新數據,可能會讓圖譜中的某些子網的結構發生徹底的改變。目前恆昌採用一組啟發式的算法來擴展新進客戶的影響,效果顯著。這也意味著,風險事件預警並非只針對貸前風險事件,還會將貸後風險事件作為預警。比如觸發了某個老客戶的潛在逾期風險時,就可以引導相關團隊提前關注,在情況惡化前及時止損。

3.失聯修復

如果客戶奔著欺詐而來,那幾乎也註定了後續無法聯繫上,稱此類失聯為“第一類失聯”。“失聯”是無法完全避免的,主要是因為失聯的成本很低。即使客戶自身“消失”的意願不高,但換手機號、搬家、換公司都可能導致客戶及其聯繫人完全聯繫不上,稱此類為“第二類失聯”。

將圖數據庫應用於失聯修復是非常直觀的,因為圖數據庫在數據豐富的條件下能非常方便地進行各類關係的提取。恆昌的失聯修復項目結合了知識圖譜(基於圖數據庫)及傳統的機器學習技術,前者作為修復策略的具體聯繫方式來源,後者作為策略有效性的評估依據。目前,恆昌能做到失聯客戶實時修復,修復專員完成具體操作後會有相應的備註及日誌信息,這些數據會被實時收集用於改進修復策略。

本文僅拿眾多策略中較為容易理解的一條來略作說明,這條策略主要是從圖數據庫中提取和失聯客戶處於同一公司,且當前住址與失聯客戶接近的用戶作為修復中間人。雖然是一條簡單的策略,但深入思考會發現,國內有很多規模不小的工廠會吸引周邊村子的人去工作,而這些村子可能本身規模也不小,這樣修復中間人不見得認識失聯人。因此這條簡單的策略背後也需要有一個啟發式算法,通過公司/工廠的規模來調整當前住址需要匹配的粒度(比如,是到村、到組、還是得具體到門牌相鄰)。更進一步,如果在此基礎之上,修復中間人和失聯人有過通話記錄往來或是有通訊錄關聯(事實的條件遠比這個複雜),就大幅增加了該修復中間人的置信度,甚至可以基於此條件在圖數據庫查詢過程中提前中止,直接返回相關結論。以上操作基於圖數據庫可以將數據一次取出再進行處理,基本是毫秒級響應,如果觸發了提前中止,耗時可能更短。但如果基於關係型數據庫,首先會涉及多張業務表的檢索、關聯,其次還可能按照初次處理結果多次連接數據庫,造成數據庫資源的浪費。

實際中,恆昌通常會混合使用多種數據庫,以利用它們各自的特點來創建一個數據生態系統。除了圖數據庫外,大規模的用戶授權數據會讓恆昌在底層配上分佈式的列式存儲或鍵值存儲庫。但迴歸根本,恆昌期望為客戶提供高效、安全的財富管理及借款信息諮詢與服務,就需要優秀的風險控制作為保障。而這,恰恰也是圖數據庫能最大程度發揮價值的領域之一。

相關推薦

推薦中...