中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

大數據 金融 Hadoop 中國人民銀行 數據猿 2017-06-18

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

本篇案例為數據猿推出的大型“金融大數據主題策劃”活動(查看詳情)第一部分的系列案例/徵文;感謝 天雲大數據 的投遞

作為整體活動的第二部分,2017年6月29日,由數據猿主辦,上海金融行業信息協會、互聯網普惠金融研究院聯合主辦,中國信息通信研究院、大數據發展促進委員會、上海大數據聯盟、首席數據官聯盟、中國大數據技術與應用聯盟協辦的《「數據猿·超聲波」之金融科技·商業價值探索高峰論壇》還將在上海隆重舉辦【論壇詳情丨上屆回顧】

在論壇現場,也將頒發“技術創新獎”、“應用創新獎”、“最佳實踐獎”、“優秀案例獎”四大類案例獎


來源:數據猿丨投遞:天雲大數據

由於傳統的分析技術瓶頸問題凸顯,已無法滿足當今日益複雜且變化迅速的社會環境,隨著大數據處理技術的逐步成熟和廣泛應用,金融機構根據業務發展需要,開始嘗試採用大數據和複雜網絡技術來建立便捷性、直觀性和快速反應的企業關聯查詢生產系統的研究。

系統以機構內部數據為數據源,計算出企業與企業之間、個人與企業之間、個人與個人之間的投資、擔保、實際控制人、高管、家族的複雜關聯關係,以直觀的關係圖譜形式展示,並實現關聯群的授信機構信息的加工整理以及查詢結果下載等服務。

如下是天雲大數據使用公司產品BDCN(BeagleData Complex Platform)複雜網絡技術為人民銀行徵信中心提供企業關聯關係計算及圖譜展示的成功案例。

週期

2015年10月—­2016年3月

客戶

中國人民銀行徵信中心

任務/目標

●大數據與複雜網絡技術應用於關聯關係計算的可行性研究

綜合考察業務應用的實際需求,模擬關聯關係計算情景,通過實驗和分析評選出一種最優的大數據處理技術,擬定關聯關係計算的過程,實現企業和個人的投資、擔保、實際控制人、高管、家族信息的關聯關係的計算,從而評價關聯關係計算方法的建設性、合理性、可操作性。

●網絡關係圖譜展示技術與方法的可行性研究

採用國內外在網絡關係圖譜的結構、要素、關係及生成過程等主流的實現方法建立系統原型,通過實驗和分析綜合比較不同圖譜展示方法的效率,評選出一種最優的展示方法,根據業務實際需求,實現在線併發關聯關係查詢任務和批量關聯關係查詢。

●圖譜展示效果的可行性研究

通過先進的展示技術手段,實現全面且有效的展示應用場景,包括展示標出關係方向,能夠反映出企業與企業之間、企業與個人之間、個人與個人之間的關係形成路徑;靈活設置篩選條件,對圖譜進行切割,包括以圖譜中任一節點,展示下一層關聯企業;以圖譜中任一關聯企業為發起節點,再生成新的圖譜;當鼠標移動到節點上時,可顯示出企業或個人的基本信息和信貸信息,並能夠以表格形式提供下載。

挑戰

1)基礎數據處理難點

機構提供的企業和個人基本信息、擔保信息、信貸信息,這些源數據量非常龐大,但在做關聯關係計算前需要對這些基礎信息做有效數據處理,數據處理過程包括清洗、轉換以及整理,這些工作必須要在進行關聯關係計算前完成,從而為關聯關係計算的數據建模做好數據準備。

但該項工作需要在耗費一段時間完成,如果實際給出數據處理的時間窗口較短,又或者處理的數據量大並且處理邏輯複雜,那麼就會無法在指定的時間窗口內完成處理任務,則就會對後續的工作產生延遲影響。

因此,如何利用靈活的數據處理技術,並保證在指定的時間窗口內完成數據處理任務是一關聯關係計算的一項技術難點。

2)數據建模難點

當對源數據完成處理後,就需要針對適合關聯關係計算的應用場景進行數據建模,目前常見的數據模型種類較多,但每種模型都適用於不同的數據應用場景,如果選用恰當的數據模型則會使關聯關係的計算的性能效率提高很多,否則會產生不利的負面效果,因此,在數據模型選用上也是關聯關係計算的一項技術難點。

3)關係計算難點

如果把企業和個人描繪成節點,而企業與企業、個人與企業、個人與個人之間的關係描繪成節點之間連成的邊,按全連通關係網的方式進行計算,兩個節點之間可以構成1個1層關係,三個節點之間可以構成3個1層關係,四個節點可以構成6個1層關係,五個節點可以構成10個1層關係,1000個節點最多可以構成(1000(1000­1))/2共計499500個1層關係,依次類推隨著節點數的增加,其關係產生的數量會隨節點數量呈指數級增長。

即使不按全量通的關係網絡方式來計算,節點與節點之間的關係數也會隨節點數的增多呈更大規模的增長,如果對於大規模節點所組成的關係網絡來說,其關係的規模可想而知,那麼採用什麼樣的技術和什麼樣的計算能夠快速的計算出節點與節點之間的1層或多層級關係是一個項主要的技術難點。

解決方案

1)分佈式存儲技術

龐大的關係網絡數據存儲可以採用分佈式存儲技術,根據關係網絡數據的分佈式特點,將網絡數據進行切分,不但可以滿足當前大體量數據的存放以及支撐未來數據快速膨脹,還可以支撐大批量離線數據處理的需求,以下是對關係網絡進行切分方法及特點的闡述。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

為了提升數據訪問的性能,網絡數據會被按策略切分並分佈存儲在集群中不同的存儲實例上,提供分佈策略包括“隨機分佈“、”邊切分分佈“、”節點切分分佈“,可根據不同場景的數據特徵,採用不同的分佈方式,在具體使用上用戶可以通過配置參數加以實現。

隨機分佈,是將網絡數據中的節點隨機存放在集群的不同服務器節點上,主要適用於數據規模不大或數據分佈特徵不明顯的複雜網絡場景。

邊切分,是將網絡結構數據的部分邊進行切分,從而將一個大網絡轉變成多個關係稠密的聚集子網絡,分別存儲在不同服務器節點上,主要適用於稱社區化分佈的複雜網絡場景。

點切分,是將網絡結構數據的一些特定的點進行切分,並分佈存儲在不同的服務器節點上,主要適用於存在一定數量邊數較高節點的網絡中,避免在數據訪問中產生熱點。

2)分佈式處理技術

該部分主要是對源數據的處理,包括數據的清洗、轉換以及整理任務,由於源數據的數據格式可能會是多樣且規模比較龐大,採用一臺主機可能無法在指定的時間窗口內完成數據處理任務的要求,而採用分佈式批量處理技術則會滿足要求,因為分佈式批處理技術可以將處理任務分成多個子批處理任務並分配到多臺主機上並行進行處理,從而充分利用多臺主機的資源。

同時,分佈式批處理技術具備伸縮性,因此可以保證根據不同的處理規模以及不同的時間窗口要求來靈活調整並行處理線程以保證按時完成大規模數據處理任務,目前國內外主流、技術成熟且使用非常廣泛的分佈式批處理計算框架則是Hadoop的MapReduce,其與HDFS分佈式文件系統結合使用完全可以滿足任意大規模的數據批處理的處理需求。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

3)關係建模技術

將關係網絡中所有的節點設計成矩陣的行和列,從而形成一張方形矩陣,方形矩陣中的“0”和“1”分別標識對應的節點之間是否存在關係,通過矩陣可以迅速檢索到某節點與網絡中的其它節點有無關係。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

4)關係網絡計算技術

基於創建好的關聯關係複雜網絡拓撲模型已經完全能夠表達出節點之間的一層關係,因此不需要計算。第二層關聯關係計算就要基於已知的關聯個體第一層的關係數據,從存儲中讀取一層的關係數據,然後按照計算算法去計算第二層關聯關係數據,完成後再寫入存儲。

在對第三層關係進行計算時就需要基於第二層算好的數據,所以再每次往上層級進行關係計算時都得需要之前層級的關係的結果數據,然後依次類推。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

5)關聯關係圖譜展示

●和絃圖展示方法

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

和絃圖(又稱Chord Diagram)是國內外常用的研究展示元素之間關聯關係的主流展示方法,它的結構為一個環狀圖形,所有的展示元素均為環形圖的不同部分的弧狀邊,邊與邊之間採用空白或者間隔類圖形來加以區分元素。

弧狀邊上或以外有對應文字標題表示該展現元素的名稱、代碼等簡要信息,詳細信息可通過查看弧狀邊的註釋信息獲取,通過使用不同的顏色以及顏色的深淺等方式繪製弧狀邊來表達元素的不同類別。

通過弧狀邊之間的帶狀連線表達元素與元素之間的1層關係,帶狀線的寬度大小可以表達出關係的權重值,不同的連線顏色或顏色的深淺表示關係的不同類別,通過查看帶狀連線的註釋信息可以查看元素與元素之間的詳細關係信息。使用者可以任意選中其中一個展示元素查看到該元素與其它展示元素之間的關聯關係。

●網絡圖譜展示方法

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

複雜網絡圖(又稱Force­ Directed Graph)是國內外常用的主流的研究展示元素之間關聯關係的網絡展示方法,它的結構為一個網絡圖形。

所有的展示元素均為網絡中不同的圓點,所有的圓點在展示空間的位置上獨立,不會出現圓點重疊的情況,每個展現元素的標題或簡要信息可以在圓點旁點或再圓點之上顯示,詳細信息可通過查看圓點的註釋信息獲取,通過使用不同的顏色以及顏色的深淺等方式繪製圓點來表達元素的不同類別。

通過圓點之間的直線或弧線表達元素與元素之間的1層或多層關係。可以通過增加連線的寬度表達出元素之間關係的權重值,不同的連線顏色或顏色的深淺表示關係的不同類別或不同的權重值,通過查看圓點之間連線的註釋信息可以查看元素與元素之間的詳細關係信息,圓點與圓點之間的連線可以是一條連線也可以是多條聯繫,連線可以有箭頭表示關係的方向,也可以沒有箭頭表示無向關係。

●樹狀關係網絡圖展示方法

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

樹狀關係網絡圖(又稱Tree Layout Graph)是國內外主流的研究展示元素之間關聯關係的網絡展示方法,它的結構為一個樹形目錄圖形。

所有的展示元素均為圖中不同的節點,所有的節點在展示空間的呈現一種層次結構,不會出現節點重疊的情況,每個展現元素的標題或簡要信息可以在節點的旁點或直接作為節點,詳細信息可通過查看節點的註釋信息獲取也可直接顯示在節點上,通過使用不同的顏色以及顏色的深淺等方式繪製節點來表達元素的不同類別。

通過節點之間的直線或弧線表達元素與元素之間上下級一層或多層關係。可以通過增加連線的寬度表達出元素之間關係的權重值,不同的連線顏色或顏色的深淺表示關係的不同類別或不同的權重值,通過查看節點之間連線的註釋信息可以查看元素與元素之間的詳細關係信息也可直接顯示在節點上,節點與節點之間的連線可以是一條連線也可以是多條連線,連線可以有箭頭表示關係的方向,通常都是從上一層級指向下一層級,不然展示的圖譜將會很難用於分析。

結果/效果總結

1)實現的成果

利用Hadoop大數據技術,能夠將多臺服務器組成一個大的數據處理集群來共同支撐大規模的數據處理任務和服務,從而可以有效的滿足項目的龐大的數據處理量和服務需求。

企業關聯關係數據組合在一起會構成一張複雜的網絡結構數據,對於該場景的分析與處理應用,在科學研究領域採用的是圖計算理論,而表達圖的最佳計算模型為矩陣,因此,只有採用圖處理技術才可以有效的處理和解決企業關聯關係的查詢和計算問題。

企業關聯關係查詢是查詢企業之間一層或多層的關聯關係,而每多加一層的關聯關係的查詢就會增加一次的迭代計算,會涉及到對數據的頻繁讀寫,使用磁盤作為數據性能會非常低下,因此需採用內存處理技術可以有效的滿足計算的性能要求。

如果要對企業歷史關聯關係查詢,就得將歷史的關係數據進行歸檔保存,然後根據歸檔數據對企業關係的歷史有效性進行判斷,會涉及到大量的歸檔數據遍歷檢索,因此這部分會成為性能關鍵點,Hadoop技術能夠提供具備分佈式集群處理能力HBase,數據遍歷查詢可達毫秒級響應,完全滿足性能要求。

綜合的分析了表達關聯關係圖譜的主流展示技術,分別為和絃圖譜、樹形圖譜以及複雜網絡圖譜,然後從直觀性、響應速度、多層關係表達、業務貼合度、關係的方向性五個方面進行的評估和展示實驗,最後得出複雜網絡圖譜在五個評估角度表現最優。

2)所解決的問題

●解決了傳統技術查詢響應時間長以及無法響應的問題,通過Hadoop的技術實現方案可以將查詢性能提升到秒級甚至毫秒級的響應級別,更好滿足了用戶對響應等待時間的要求。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

●解決了傳統技術關聯查詢系統展現不友好的問題,通過複雜網絡圖譜技術能夠方便用戶直觀的查看企業與企業、企業與自然人之間的各種關聯關係並更好的進行分析。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

●解決了傳統技術未能實現的歷史關聯關係查詢以及擔保圈閉環的計算和查詢的功能需求。

中國人民銀行大數據案例:企業關聯關係計算及圖譜展示

3)技術提升

●傳統技術採用的是關係表模型,在關聯關係查詢方面會產生大量的計算負荷,嚴重影響性能,而Hadoop大數據技術可支撐網絡結構模型,大幅降低了計算量,從而高效的提升了處理性能。

●傳統技術採用的是單臺服務器的計算方案,由於無法進行擴展,導致計算能力不足,無法支撐大規模數據處理和大規模的計算任務,而Hadoop大數據技術採用分佈式處理技術,一臺服務器無法滿足的工作,可並行使用多臺服務器,擴展能力強,完全能夠支撐大規模數據處理和大規模的計算任務。

●傳統技術採用的數據處理技術單一,無法有效滿足應用場景的各個環節的對處理技術的要求,因此,在整體處理性能表現並不理想,而Hadoop富含有多樣的處理技術,因此,針對應用場景,採用多種處理技術的組合,從而發揮每種技術的優勢,達到最佳的效果體驗。

企業簡介:

天雲大數據早期由國際一線科技教父楊致遠田溯寧孵化,國內唯一能夠同時提供分佈式計算平臺產品和AI平臺基礎設施的科技廠商,擁有博士後工作站和國家級高新企業稱號,並於2016首批進入中關村前沿科技企業重點計劃。

公司在分佈式計算領域有自主產品,填補了聯機事務等領域空白,並在多個大型銀行核心交易系統部署驗證同時獲得千萬級以上軟件收入。在人工智能方向領先於BAT發佈了分佈式AI平臺,於2016年在大型股份制銀行落地,並獲得過百萬美金的AI平臺收入。該平臺與科大訊飛一起獲得了北美ZDnet評選的十大AI賦能平臺獎項。

憑藉分佈式AI能力,天雲自2016開始為金融機構提供數據模型深入信用風險欺詐等金融業務領域,為人行光大興業銀聯等提供信用業務相關計算與數據科學模型,由此獲得國際一線機構KPMG評定的中國Fintech50強,亞太Asset財經評選的TrippleA金融科技領先獎,財視的Fintech30強金融科技介莆獎,與螞蟻金服京東金融等同列的先進金融科技企業。


歡迎更多大數據企業、大數據愛好者投稿數據猿,來稿請直接投遞至:[email protected]

相關推薦

推薦中...