商業智能與大數據結合會造成什麼影響

商業智能與大數據結合會造成什麼影響

近3-4年以來,隨著數字設備等性能的快速發展,信息爆炸的大數據時代來臨。傳統的商業智能模式和系統應該如何發展,去適應大數據引起的變革並從中受益?

傳統商業智能模式

商業智能(或稱商務智能,BusinessIntelligence,BI)的概念最早由加特納集團(Gartner Group)的Howard Dresner於1996年提出。當時定義為:“商業智能描述了一系列的概念和方法,通過應用基於事實的支持系統來輔助商業決策的制定”。

隨著商業智能領域的發展,其概念不斷被充實。如TomSoukup和 Ian Davidson在《Visual Data Mining: Techniques and Tools for Data Visualization and Mining》一書中指出:“商業智能解決方案將業務數據轉換成明確的、基於事實的、能夠執行的信息,並且使得業務人員能夠發現客戶趨勢,創建客戶忠誠度,增強與供應商的關係,減少金融風險,以及揭示新的銷售商機”。

今天,商業智能的含義包含了信息系統、數據分析、知識發現與企業戰略等各個層面的各種內容,時下流行的供應鏈管理(SCM)、客戶關係管理(CRM)、企業資源計劃(ERP)概念均可視為商業智能的一部分。

商業智能系統的組成部分

一般認為,DW、OLAP、DM是所有商業智能系統均具備的組成部分:

數據倉庫(DataWarehouse,DW)是企業所有類型的有價值數據的集合。BI系統從企業各種平臺和流程取有用數據並進行清理,然後經抽取、轉換、裝載(即ETL)過程,數據儲存在數據倉庫中,從而得到企業數據的一個全局視圖。由於數據倉庫中的數據通常為各種明細數據,缺少彙總和層次關係,因此很少直接用於分析和決策。

聯機分析處理(On-LineAnalytical Processing,OLAP)用於處理聯機數據訪問和分析需求。BI系統需要向決策人員提供高效、直觀的數據查詢和展現,更方便地輔助決策人員,於是OLAP概念產生了,它將原始的、難以使用的數據轉化為能夠被理解的、多維的信息,並對多維信息提供鑽取、切片、切塊等操作,從而滿足用戶在各種維度上的數據查詢需求。

數據挖掘(DataMining,DM)指從海量數據中通過某種算法找出隱藏信息的技術。通常包含關聯分析、聚類分析、異常分析等功能。數據挖掘的價值在於,它可利用企業數據進行歸納推理,挖掘出潛在的模式,幫助決策人員制定決策和調整戰略。數據挖掘的存在也是BI系統區別於傳統報表系統的最主要區別。

在傳統的技術手段下,BI系統的三大組成部分都可利用關係型數據庫(RDBMS)實現,許多關係型數據庫的生產商,如Oracle、IBM、微軟,同時也是商業智能解決方案的提供商,可見兩者結合之緊密。近年來,隨著大數據時代的來臨,非關係型數據庫(NoSQL)的優勢開始凸顯。許多IT企業,尤其是互聯網行業,已經邁入了SQL和NoSQL並存的時代,非關係型數據庫如HBase用於海量數據的清洗和處理,關係型數據庫如Oracle用於面向用戶的多維查詢和展現。我們的數據分析平臺也使用了這種技術模式。但無論使用何種技術,商業智能的三大組成部分都對應著以下三大主要功能。

商業智能系統的主要功能

數據管理功能:從多個數據源獲取數據、處理多種格式的數據、存儲海量數據的能力。為輔助這一功能,一些BI系統具備元數據管理模塊,即對描述數據的數據也進行管理。隨著業務量級的提升、數據口徑的日益複雜,不遠的將來我們也會有提升數據管理能力的需要,而元數據管理就是最好的解決方案。

數據分析功能:傳統BI系統具備即席查詢、報表生成、數據可視化等數據分析功能。而大數據時代來臨的意義在於,數據的鴻溝正在逐步消除,不僅企業決策人員能更加方便靈活地操作數據,普通用戶也有獲取數據的需求,企業滿足用戶這方面的需求,讓用戶分析自己、管理自己,對雙方都會帶來巨大的價值。新浪微博的數據分析插件、淘寶的數據魔方等都是正面的成功範例。不幸的是,仍有一些古董級的企業逆勢而為,力圖加高數據壁壘,讓用戶對自己的消費情況查不清、問不明,這隻會加速用戶流失。筆者建議這些企業儘早轉變陳腐的觀念,營造透明開放的數據環境,只有擁抱變革,才不會遭受變革。

知識發現功能:將數據中隱含的、潛在有用的而人們又感興趣的部分固化下來形成知識的功能。提取的知識通常表現為概念、規則、規律、模式等。筆者認為,知識發現主要解決who、where、what的問題,即客戶是誰、客戶在哪裡、客戶想要什麼。在大數據環境下,人們甚至可以發現一些難以想象的銷售模式,如沃爾瑪“啤酒與尿布”的經典案例。對我們公司來說,這塊能力急需加強。公司領導層多次提到“對圖書和用戶都不瞭解”,是一個明確的缺乏知識發現能力的信號。

大數據的變革

1、使用多種數據類型綜合決策。以零售業為例,傳統的線下銷售模式中,企業的信息化系統中保存的數據通常只有訂單數據,企業也只關心訂單的狀況和由此生成的財務報表。顧客的人身特徵、詢價過程、物流配送等等信息都被丟棄了。而線上銷售模式中,訂單只是數據的一小部分,對企業更有價值的反而是用戶瀏覽過程、搜索、對比、收藏、詢價、物流、評價這些被傳統行業遺棄的數據,甚至很多電商網站費盡心機爬取用戶的其他網頁訪問、位置、通訊錄等數據。姑且不論收集這些數據是否合法,至少線上銷售能給客戶帶來更精準的推薦和更個性化的體驗,可以說電商已經靠著數據革了線下銷售的命。

2、不再探尋因果,而探尋關聯。傳統行業喜歡使用因果論來指導經營,如“買了籃球——推薦籃球鞋”、“因為淡季——所以促銷”等。類似的方案需要對行業本身具備瞭解,但頻繁使用又會使經營模式趨於雷同。在大數據環境下,我們需要探究的是關聯而非因果。如沃爾瑪的“啤酒和尿布”故事,便是沃爾瑪的數據分析人員找到了兩者的強關聯而提出的銷售方案。數據分析人員無需探究深層次的原因是妻子讓丈夫帶尿布,還是丈夫讓妻子帶啤酒,這根本無關緊要。又如,谷歌的數據科學家通過對搜索詞彙的建模,預測什麼地區將會爆發流感,從而對美國的防疫事業做出了巨大的貢獻。這些數據科學家甚至不知道流感病毒為何物,但這絲毫不影響他們從數據的關聯中發掘出重大價值。

3、從異常數據和髒數據中淘金。傳統的數據倉庫構造過程中,異常數據、髒數據需要在ETL過程中予以剔除,否則將會造成數據入庫失敗等各種問題。然而在大數據環境下,異常數據卻可能有其價值。筆者在之前的工作中,發現每天8點和20點均有大量客戶端訪問錯單,這些記錄均被ETL清洗了。進一步研究發現這些錯單均為調用同一個接口導致的,再進一步核查業務代碼,發現安卓客戶端在設計時為跟蹤沉默客戶端用戶,每天8點和20點兩個時段客戶端會向服務器發送握手消息,當客戶端保有量增大時,握手消息使服務器不堪重負,最終產生錯單。之後的客戶端設計調整了代碼,將握手機制分散至全天執行,減少了服務器負荷,避免根據錯誤的壓力“峰值”對服務器擴容。又比如,美國一家信用機構發現,有10%的“已死亡”客戶仍在正常償還貸款,保留這些異常數據而非做銷戶處理,會給企業帶來額外的利潤。

當然,大數據帶來的變革遠不止以上三點,它帶來的既是機遇,也是挑戰。如何將大數據理念與傳統的BI相結合,以產生新的功能點,是我們迫切需要思考的問題。

商業智能與大數據結合

1、快速分析。面對猛增的數據量和分析人員越來越多的即席查詢需求,BI需要具備快速分析特性。我們有兩種手段支持這一特性。一是維度冗餘,即對統計級數據做不同級別的彙總,各級別間允許存在交叉,如PV數據可按地市彙總、按地市+用戶類型彙總、按地市+用戶類型+業務線彙總,三種維度的數據是冗餘的,即這是一種以空間換時間的技術。缺點是,新增一個維度即需要新增一張表,當數據量大時還要做分庫、加硬件。二是內存計算,一些頻繁被查詢的數據可放在內存中,同時輔助以內存文件系統加Storm的模式,可支持秒級甚至毫秒級的查詢。缺點是,這種技術只能支持較小的數據量。

2、計算分層。按數據量和數據延時要求的不同,我們可將計算能力劃分為三層,以不同的技術手段實現。實時性最高、數據量最小的情況使用流式計算層,代表技術為Storm(https://storm.incubator.apache.org/),它可在每一塊數據到達時觸發計算,適合實時的標量彙總,如商品的實時銷售額。實時性較高、數據量適中的情況使用塊計算層,可用傳統的Oracle完成,在Oracle上應用OLAP可滿足大部分日常報表的需求。實時性最低、數據量最大的情況使用批量計算層,代表技術為Hadoop,如每日的底層數據處理、長週期的數據累計等。

3、服務開放。類似SaaS(軟件即服務)理念,將數據處理和數據分析能力包裝為服務,允許有一定經驗的數據科學家直接調用。面向服務的架構還有助於前後臺的解耦,當前臺需要新增指標或展現時,後臺只需對接口做少量改動,或完全不用改動。

億信BI能夠滿足以上所有需求,它能夠洞悉數據的蛛絲馬跡,發現數據的潛在價值。商業智能分析平臺億信BI內置成熟的OLAP聯機分析處理引擎,構建強大的數據計算能力。通過常規計算和挖掘計算的定義,可以快速、輕鬆地掌握數據中的含義,發現並預測數據趨勢和相關性。通過對數據的統計、鑽取、分析和挖掘,挖掘數據的蛛絲馬跡,提出問題,找到原因,發現內在關係,真正釋放企業數據力量,輔助領導決策,驅動企業不斷進步。

相關推薦

推薦中...