哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

金融深度學習數據挖掘機器學習蘇寧金融研究院蘇寧金融研究院 2017-09-28

在社會網絡中，一個著名的理論是：最多通過六個人，你就能夠認識世界上的任何一個陌生人。如果把每個人看作實體，找出人與人之間的聯繫，其中涉及的就是建設知識圖譜的技術。

通過知識圖譜的圖形化展示，可以很直觀地呈現人們錯綜複雜的社交關係。據說，這種技術曾經用於情報部門反恐，並取得了良好的效果。今天，知識圖譜已經從007的神祕技能演變為金融黑科技。這項金融黑科技真正應用的起點在2012年，谷歌公司將其引入搜索引擎，用於改善搜索體驗。簡單地說，就是通過對網頁信息的爬取和分析，找出不同種類信息的內在聯繫，從“關係”的角度突破信息碎片化壁壘，提供包含關聯關係的搜索結果。

值得注意的是，金融領域由於對數據強烈的依賴性，被認為是人工智能最適合落地的領域之一。海量的數據為人們更好地掌握與認知事物規律，提供了越來越豐富的來源。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

但是，由於非結構化數據的急劇增長，對數據的分析與理解的要求已經遠遠超過人類的生理極限，這對我們的分析手段提出了新的要求與挑戰。傳統的數據儲存方式將數據分門別類的存放，已經很難適應現實瞬息萬變的市場行情，無法滿足金融分析的實時性和全局性的要求。

金融知識圖譜是金融行業語義理解和知識搜索的關鍵性基礎技術，可以為輿情監控、知識發現和推理決策等提供技術支撐。因此，越來越多的金融機構及企業在探索構建金融領域的知識圖譜研究，將海量非結構化信息自動化利用起來，為金融領域應用決策提供更精準可靠的依據。下面，我們做個詳細介紹。

什麼是知識圖譜？

知識圖譜本質上是一種語義網絡，是基於圖的數據結構，以圖的方式存儲知識並向用戶返回經過加工和推理的知識。它由“節點”和“邊”組成，節點表示現實世界中的“實體”，邊表示實體之間的“關係”。

一般來說，知識圖譜分為通用知識圖譜和領域知識圖譜。其中，通用知識圖譜主要由各大搜索引擎公司研究，以提高搜索準確率，爭取直接給出目標答案；而領域知識圖譜可根據領域特定的情況，提供各種針對性的應用。

具體到金融領域，因為涉及到各行各業，包含了經濟、產業、公司等眾多方面的知識，所以金融知識圖譜相對於其他領域比較特別。具體來說，金融知識圖譜常見的實體包括：公司、產品、證券和人員等。實體間的關係包括：股權關係、任職關係、擔保關係、供應商關係、競爭對手關係、生產關係、採購關係和上下游關係等（參見下圖）。其中，有些實體和關係，可以自動抽取生成，如股權關係和任職關係等，均可在工商局註冊登記平臺得到公開信息。而產品間的上下游關係則需要有系統性的數據源，這就給信息獲取和識別帶來了巨大的挑戰。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

知識圖譜有什麼特點？

知識圖譜可以最有效、最直觀地表達出實體間的關係。簡單地說，就是把大量不同種類的信息連接在一起而得到一個關係網絡，為人們提供了從“關係”的角度分析問題的能力。

相對於傳統的描述方式，知識圖譜具有一些自身的特點：

（1）多維度，需要從大量的信息源中抽取多維度的特徵信息，為後續算法拓展深度關聯關係提供必要的素材；
（2）深加工，在信息素材的基礎上，通過智能推理實現從數據到智慧的深加工；
（3）可視化，深加工的結果以可視化的方式展現給用戶，並與用戶交互，直觀易懂。

假設我們用知識圖譜來描述一個事實：“李四是張三的朋友”。這裡的實體是張三和李四，關係是“朋友”。當然，張三和李四也可能會跟其他人存在著某種類型的關係（如王五）。如果把電話號碼也作為節點加入到知識圖譜（電話號碼也是實體），人和電話之間也可以產生一種關係，即某個電話號碼是屬於某人。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

由此可見，知識圖譜是基於圖的數據結構，它的存儲方式主要有兩種形式：圖數據庫和RDF存儲格式。在此，可以使用專業的工具進行相關的工作。比如，neo4j在整個圖存儲領域裡佔據著重要的地位，在RDF領域裡Jena是目前最為流行的存儲框架。

當然，如果需要描述的實體維度較少，而且查詢時僅僅需要知道實體間簡單的關聯關係，那麼使用傳統的關係型數據庫即可滿足要求。但是對於複雜的關係網絡，知識圖譜的優點非常顯著。首先，在關聯查詢的效率上，比傳統的存儲方式有顯著的提高，查詢效率甚至會高出幾千倍甚至幾百萬倍。其次，基於圖的存儲在設計上比關係型數據庫靈活，比如新的數據源只需在已有的圖譜上插入即可。

用知識圖譜可以做什麼？

目前，知識圖譜的應用在國內還處於初始階段，但已經在金融、醫療和電商等行業得到了廣泛的探索。特別在金融行業中，知識圖譜是一個重要的反欺詐手段。例如，基於大數據的分析把不同來源的各類數據整合在一起，有效地識別出團體欺詐、身份造假、代辦包裝等欺詐行為。此外，還可應用於行業風險預測、對客戶的精準營銷以及可視化展示等一些典型的領域。相信隨著研究的深入，還會有越來越多的應用場景被髮掘出來。下面，我們對已有應用場景做一個詳細介紹。

(1)風控反欺詐

反欺詐是風控中非常重要的一道環節，也是知識圖譜適合應用的場景。反欺詐的核心是人，這就要求把與借款人相關的數據源打通，然後抽取該借款人的特徵標籤，從而將相關的信息整合成結構化的知識圖譜。其中，不僅可以處理記錄借款人的基本信息，還可以把借款人日常生活中的消費記錄、行為記錄、關係信息、網上瀏覽記錄等整合到知識圖譜裡。在此基礎上，對該借款人的借貸風險進行分析和評估。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

反欺詐的應用不僅體現在貸前階段，還可以應用在貸中階段，通過構建已知的主要欺詐要素(如手機、設備、賬號和地域等)的關係圖譜，全方位瞭解借款人風險數據的統計分析，對潛在的欺詐行為作出及時的反應。當然，這要求能夠獲得借款人全方位的各種類型的信息，並且利用機器學習和自然語言處理技術從數據中提取出符合圖譜規格的數據。

相比虛假身份的識別，組團欺詐的發現難度更大。一般來說，團體欺詐往往隱藏在非常複雜的關係網絡裡，很難識別。只有把其中隱含的關係網絡梳理清楚，才有可能去分析出其中潛在的風險。知識圖譜，因為天生用來描述關係網絡，因而具備了分析組團欺詐的便捷手段。

(2)風險預測

基於多維度的數據，從而建立起客戶、企業和行業間的知識圖譜，從行業關聯的角度預測行業或企業面臨的風險。例如，通過對行業進行細分，根據貸款信息、行業信息建立行業間的關係模型；通過機器學習，可發現各個行業間的關聯度，如果某一行業發生了行業風險或高風險事件，根據關聯關係可以及時預測有潛在風險的其他行業。從而可以幫助金融機構做出預判，儘早地規避風險。

除此以外，通過知識圖譜，也可以將行業和企業之間數據進行連接，藉助對行業的潛在風險的預測，能夠及時發現與該行業風險或系統性風險相關聯的企業客戶。例如，某地區某行業連續出現了多筆逾期貸款，通過對行業和客戶的知識圖譜進行分析，可以及時發現該地區相關行業存在潛在風險的客戶。

(3)精準營銷

優秀的企業可以比競爭對手更有效地挖掘潛在客戶，其中起關鍵作用的是分析用戶和理解用戶。知識圖譜綜合了多個數據源，挖掘出實體之間的關係，從而對用戶的行為有更好的理解，能更好、更深入地理解用戶的需求，挖掘已有客戶的潛在需求，針對性地推送相關產品，更好地為客戶提供營銷服務。比如，市場經理可以用知識圖譜來分析用戶之間的關係，發現共同的喜好，從而有針對性的對某一類人群制定營銷策略；如果對知識圖譜擴展（如增加車輛信息、個人愛好、行為等），可以更加精準地分析客戶行為，進行精準推送。

同樣，挖掘潛在客戶也是金融行業重點關注的工作。如果能夠通過全方位的數據，精準、迅速地找到相關業務的潛在客戶，對於提升銀行的業務會有很大的幫助。基於銀行客戶建立社交網絡知識圖譜，根據各種社交行為（如交往方式、頻次等）發現圖譜的關係模型，對客戶社交網中的相關主體（如親屬、朋友、同事、同學、陌生人等）進行挖掘，評估關係緊密度。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

以上的業務不僅可以針對個人客戶，還可以針對企業級客戶。例如，分析企業客戶的資金關係、法人關係、上下游投資關係、相似企業業務關係等，為企業推薦合適產品、服務。

(4)智能搜索和可視化

基於知識圖譜，我們也可以提供智能搜索和數據可視化服務。智能搜索的功能指的是，知識圖譜能夠在語義上擴展用戶的搜索關鍵詞，從而返回更豐富、更全面的信息。比如，搜索某個人的身份證號，可以返回與這個人相關的所有歷史借款記錄、聯繫人關係和其他相關的標籤（如黑名單等）。這些結果可以用圖形網絡的方式展示，從而把複雜的信息以直觀明瞭的圖像呈現出來，讓使用者對隱藏信息的來龍去脈一目瞭然。

如何建設企業應用的知識圖譜？

如果想要針對特定行業或企業建立知識圖譜，首先，需要分析行業特點，創建統一的數據模型和視圖；然後，要對收集的各類行業數據進行整合，並通過關聯計算找出數據間的關係，再使用圖數據庫保存及展示；最後，建立業務模型對數據進行機器學習，挖掘有價值的信息支撐業務場景。

具體到金融行業，建立知識圖譜通常要經歷三個主要步驟：

從海量的結構化、非結構化數據中識別金融實體；
根據業務需要，定義並識別金融實體間的各種關係，進而生成知識圖譜；
定義並表達業務邏輯，通過在知識圖譜上實現各種具體任務來體現數據價值，如推理等，實現數據到智能的昇華。

先來看第一個步驟：實體的識別是從文本中抽取出特定的實體信息，如時間、人物、地點、公司、產品等等，由此確定了知識圖譜中的點。

再來看第二個步驟：關係的識別則是指實體間的各種關係，如地理位置關係、僱傭關係、股權關係等等，這些關係確定了點與點之間的邊。需要說明的是，常用的抽取關係的方法有基於專家知識庫和基於機器學習等類型。其中，基於專家知識庫的方法是由行業專家構築大規模的領域知識庫，需要專家參與，一般耗時費力，但是質量相對比較可靠；機器學習的方法需要構造特徵向量形式的訓練數據，使用機器學習算法自動構造。需要特別指出的是，對於非結構化文本，實體識別和關係抽取需要基於自然語言處理算法，以及深度學習算法(例如，用詞向量的方式尋找近義詞，提高實體模糊識別的準確度)，這是一個反覆迭代、不斷精進的過程。

最後來看第三個步驟：推理能力是人類智能的重要特徵，是由一個或幾個已知的前提推出結論的過程，也可以從已有的知識中發現隱含的知識。在推理的過程中，往往需要一些規則的支持，例如：從“某人甲”既是“企業A”的法人也是“企業B”的法人，可以推測出“企業A”和“企業B”之間的關聯關係。當然，這裡會涉及到概率的問題。當信息量特別多的時候，如何把這些信息有效地與推理算法結合在一起是最關鍵、最有挑戰性的工作。常用的推理算法包括基於邏輯和基於分佈式表示的方法。隨著深度學習在人工智能領域取得的突破，基於分佈式表示的方法已成為目前研究的熱點。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

此外，金融知識圖譜還包含了很多其他的形式，例如：A股的公司、港股和美股的公司，各種基本面的數據、行情的數據都在逐漸的知識圖譜化，還有公告數據、研報數據、以及工商數據等都是金融知識圖譜的分支。

知識圖譜應用面臨哪些困難？

知識圖譜在工業界還沒有形成大規模的應用，很多仍處於調研階段，主要原因在於很多企業對知識圖譜並不瞭解，或者理解不深。但從目前的趨勢可以預測，知識圖譜在未來幾年內必將成為工業界的熱門工具。當然，知識圖譜在實際應用中仍然將面對很多的挑戰。

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

（1）數據的可訪問性。數據處理的最大煩惱常常是無法得到數據。由於種種原因，數據往往無法得到充分的公開，被封閉在數據孤島上；或者僅僅被用書面的方式保存，無法用電子形式讀取處理，可訪問性不好。提高可訪問性的主要手段是把數據電子化和網絡化，可以方便地通過網絡鏈接和訪問。其中涉及的技術有：網絡爬蟲、PDF格式轉文本、圖片中的字符識別和文本清理等。最後，使用大家廣泛接受的傳輸協議，提供不同平臺間的兼容。

（2）數據的可發現性。原始數據中往往存在很多的噪聲，例如，數據本身在收錄時有錯誤，必須被糾正；再如，數據會有冗餘，同一家公司的名稱可能會有全名、縮寫名等形式，處理時被當作不同的公司對待等。這些都會對後繼的數據處理造成干擾，降低數據的可發現性。

（3）數據的深層關係。因為海量的數據已經遠遠超出人類的處理能力，依靠人力無法發現在數據中隱藏的眾多關係。人類也許能從數據中最多找出幾百個維度，但是機器使用自然語言處理的技術可以識別成千上萬個維度，特別是關係抽取。此外，各種推理的方法也非常重要，通過推理規則可以發現隱藏得很深的聯繫。

（4）領域知識的集成。金融涉及多個行業，可以分為上百個領域，這些領域都多少需要集成領域的專業知識。不管是投資還是製造，其中的主要概念、產品分類、市場競爭情況等都需要通過行業專家收集整理，並反映到領域知識庫中。其中需要的主要技術為：文檔篇章分割、中文分詞、實體提取及消歧、關係提取、規則庫建設等。金融領域中的徵信、融資、資管、二級市場交易等都有具體的業務場景，都需要業務邏輯，這些邏輯在數據之上表現為模型，需要在基礎數據和領域知識的基礎上實現。

（5）策略的生成。現有階段，機器在業務場景中還無法完全替代人類的作用，而是輔助人類作出價值判斷、風險判斷，通過過往的案例或者既定的邏輯，為人類推薦可行的策略。在此，涉及到人工智能的方方面面：對用戶交互而言，有意圖理解、語言生成、用戶畫像匹配等；在業務層面，有邏輯生成、投資模型、風險模型等；涉及的數據處理有規則提取、知識庫建設，語義檢索、邏輯推理等。

最後，我們必須看到，金融和所有其他領域一樣，正在逐漸被人工智能滲透，人類將會越來越多地依靠機器的幫助，更加科學地決策。今天的金融輔助工具已經可以提供大量的幫助，讓投資人更容易地獲得數據和分析層面的支持，大大提高工作的效率。而在整個技術鏈中，知識圖譜居於核心地位，這是自金融報表電子化以來又一次質的飛躍。知識圖譜是金融數據分析從簡單的量化模型走向更為複雜的價值判斷和風險評估必經的一環，把經驗逐步變成可重用、可演化、可驗證、可傳播的知識模型，從而實現數據到智能的昇華。

（來源：蘇寧財富資訊；作者：蘇寧金融研究院高級研究員沈春澤）

哪些黑科技正在改變金融？深度解剖知識圖譜的四大應用

相關推薦