推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現


推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

提到社交網絡分析,推薦系統、風控模型這些名詞,相信你並不陌生,社交網絡分析無非是 Pandas+Matplotlib,推薦系統大概率是餘弦相似性、協同過濾,風控則被 LR(邏輯迴歸)、XGBoost 這些成熟的模型佔據。

但也許你不知道的是,看似相去甚遠的社交網絡分析、推薦系統、金融風險預測,都可以用網絡挖掘的思想來實現。網絡挖掘還可以應用到其他的領域,比如搜索引擎、知識圖譜、城市計算等。

什麼是網絡挖掘

其實與一般意義上的數據挖掘/數據分析殊途同歸,都是通過挖掘/分析方法,獲取數據中的包含的信息和知識。

不同的是,一般意義的數據挖掘是通過算法模型(比如常用的迴歸、分類、聚類模型)進行描述/預測,網絡挖掘則給出了新的解決方式。

通過將數據/問題抽象為網絡模型,來幫助我們更好地進行數據分析/數據挖掘。

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

為什麼要抽象為網絡模型?比如我們在一個社交網絡中,通常我們怎麼去尋找最具傳播力的大V,一般來說無非把各個用戶的粉絲數排個序。

而網挖掘的思路不太一樣,我們可以通過構建用戶相互關注的網絡模型來尋找出大V,這裡我們關注的是在信息傳播中真正的影響力(很多時候,粉絲最多的,並不一定是最具傳播力的)。

除此之外,我們還可以看到網絡中不同的組群(比如不同愛好的群體)、分佈的密度等等,這可以從宏觀上去幫助我們分析整個數據樣本中的關係。

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

基於社交網絡的組群發現

可以說網絡挖掘在基本的描述性統計方面又更進了一步,從關鍵節點的識別到組群發現,從某種程度上,可以發現很多我們做一般的描述性分析所得不到的深刻洞見。

網絡模型如何實現

網絡挖掘無非是把問題抽象為網絡的模型來進行分析,所以對於網絡建模來說,我們主要是要去了解節點和連邊。而對於節點的重要性,中心性則是關鍵的指標;對於節點間的關係,傳遞性和相似度有著重要的意義。

以及網絡相似衡量指標:節點度數分佈、聚類係數、平均路徑長度等等。

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

網絡的節點和連邊

當然更重要的是,在面對真實的問題或者數據的時候,如何將實際的問題抽象為網絡模型,我們也稱為問題形式化。

比如對於不同的領域,我們通常可以構建這樣的一些網絡。

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

比如我們有這樣一份數據(Stack Overflow 的用戶技能數據),用技能間的連線的值表示技能之間的相關性權重。

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

根據技能之間的關係,我們就可以構建如下網絡模型,你看著這個網絡很嚇人,其實用networkx(Python庫)來構建,也就是幾行代碼的事情。

推薦系統、風控模型、知識圖譜,竟然都可以用網絡挖掘來實現

通過這個網絡模型我們就可以發現很多有意思的事情,比如蘋果系的開發技能(ios/mac)是聚在一塊,windows 系開發聚在一塊,網頁開發也是如此,這就是不同的社區。如果跟這些社區都有鏈接的,一定是一些相對通用的技能,比如 Linux、Git、Python 等。

當然,這只是網絡模型探索的開始,後續還有很多有意思的問題(幫助我們發現更多知識,應用到不同的業務模型中):

  • 鏈路預測(最短路徑)
  • 關鍵節點挖掘(尋找權威節點)
  • 網絡遍歷(搜索與檢索)
  • 社區發現(組群畫像)
  • 相似節點挖掘(相似性推薦)

網絡挖掘的應用

網絡挖掘在用戶畫像、商品推薦、金融風險評估、城市交通優化、流言信息傳播等方面有著廣泛的應用。很多業務用一般的數據挖掘方法效果不佳的,加入網絡模型之後,卻能大幅提升。可以說網絡挖掘的應用舞臺無限寬廣……

網頁排序

比如谷歌的 PageRank,本身也是在構建龐大的網頁網絡模型的基礎上(網頁為節點,超鏈為邊),通過計算不同網頁的中心度(權重),來對網頁進行排序,從而實現更加精準的搜索和推薦。

社交網絡分析

社交網絡天然適合構建網絡模型進行分析,比如信息的傳播預測、影響力分析、社交組群發現、好友推薦、用戶畫像等等,單獨拿出來看個體,和其他的個體拿出來看,發現一些不一樣的東西。從某種程度說,社交網絡分析是建立在網絡模型分析的基礎之上。

推薦系統

傳統的協同過濾算法的基本思想是,將與目標用戶選擇相似性度較高的用戶喜歡的商品,推薦給目標用戶。而網絡模型的加入(比如好友網絡、商品網絡),怎麼可以很大程度上解決多樣性問題、冷啟動問題、社會推薦問題,從而提升某些場景下的推薦精度。

知識圖譜

網絡挖掘在知識圖譜中也發揮著重要的作用,比如遍歷與路徑探尋、關鍵節點挖掘等。PatientsLikeMe.com 將病人、病症、醫院、醫生、藥品等等醫療數據組織成知識圖譜。在圖譜上,醫生可以搜索家族病史網絡,查詢相似病例及解決方案;病人可以搜索疾病相關的病症、藥品、醫生、相似病例等。

所以,網絡挖掘其實是強化了數據分析/挖掘的技能,以一種全新的視角,探索更為全面、宏觀的網絡知識,以及個體之間的關係。

來源:數據分析

相關推薦

推薦中...