“大數據”太扯,談談對企業數據驅動的認知

大數據 產品運營 機器學習 人工智能 數據分析小強 2017-05-19

近日,公司高規格的舉辦了一次數據產品路演的活動,高管悉數出場。

W老大高度總結,認為用戶導向和數據驅動是支撐公司未來發展的關鍵因素。

其實,整場活動並未特別多的新意,幾大數據產品費勁心機的顯現其強大的產品功能,在我看來還是沒能比醫院的B超機NB。

“大數據”太扯,談談對企業數據驅動的認知

但畢竟涉及每日對T量級數據處理,倒是讓我對公司的集群多了一些信任。

最近2年,在公司內部和外部的會議,我多次談到過對數據認知相關方面的話題,在“大數據”,“人工智能”氾濫成災,數據即石油,數據即XX的比喻不絕於耳的當下,我一度也在一個大數據會議上,大肆發表:信息語言化,催生了人類的邏輯,信息數字化,或能孕育出人工智能。然而,現實中,企業內部的數據運營工作,又是如此繁瑣冗長。在這樣的心境下,當活動場上幾大數據產品用各種姿勢的證明自己能有效出反映業務細節時,心想:這些反映真實的業務細節的數據,TMD難道不是理所應當的嗎?

但事實顯然不可能是理所應當的,同事們付出巨大的心力,不可能因為我的過激而被輕易否定的。(反映客觀事實是極為困難的)

活動後,我反思自己的消極態度,覺得還是有必要梳理一下自己對數據的認知。

我問自己的第一個問題:數據為什麼如此重要

我最後想解決的現實問題是,數據團隊應該如何幫助公司做好數據驅動

我相信自己肯定可以大致想通這個問題,因為馬克思說:人類只會提出他們能夠解答的問題。^^


一、數據為什麼如此重要

第一個應該被定義清楚的是“數據”是什麼。

“大數據”太扯,談談對企業數據驅動的認知

今天,每一家互聯網公司都會說他們每天都在儲存海量的數據。但狹隘的說,微博存的是“文字”,雲盤存的大量“片子”,電子眼拍的是”圖像“,真正存儲阿拉伯數字最多的可能是數據庫裡自動生成的ID號。只不過因為基於01系統的電子存儲,本質上也算是數字。

但是,不能說我們口頭語言本質上可以被抽象成空氣振動,就說我們每天都在通過空氣振動溝通。那麼,馬雲絕對不會將"我們是一家數據公司”改口為“我們是記錄用戶各種購物行為信息記錄的公司”的現象,難道只是商業上的伎倆?

我對數據的思考,認為:數據不只是信息的數字化,還是信號的數字化。

信息,是有信息接收能力的事物,對客觀世界的有限描述。

信號,觸發某個可識別信號單位的具體行為的指令。

舉例:老鷹在天上飛過,猴子在腦力裡形成了天敵來臨的信息,然後通過發出代表危險信號的叫聲,猴群四散而逃。

人類在長期演化中,獲得了“語言”的能力,並以此形成了邏輯分析能力,能更好的描述、分析信息和傳遞複雜的信號,語言化的信息信號使得人類可以進行復雜的大規模協作。人類的力量由此崛起。

由語言為基礎形成的文字,使信息和信號不再短暫停留在生物大腦、肢體和聲音等載體上。它通過羊皮、紙張等跨越個體生命的生死,在歲月中積累沉澱,成為人類文明的象徵。(當然還有繪畫、音樂等,不展開)

如果用物理學的視角抽象世界,人類的力量應該也是一個矢量,是由力的大小力的方向構成

人類的力量大小=人類掌握的所有能源的力量,人類力量的方向=人類社會所有指令系統的加權。

而指令系統,正是依靠信息和信號構成。

當信息和信號被數字化後,對信息信號的處理、再造、轉化將更多的通過數學的能力而非以語言為基礎的大腦邏輯。(數學,是人類文明中的一個特殊存在,甚至被冠之以絕對真理)數學語言在邏輯推導上相對文字語言的優劣性不言而喻。不同類型信息之間的勾稽變得更為容易。在封裝邏輯的算法和計算機系統下,信息信號開始模擬人類智慧,完成信息信號的腦外處理。

19世紀,工程師們將對機械控制的邏輯,表達成數字運算,然後通過齒輪等機械構建,封裝成“機械算法”,締造出工業時代。如今,RD們對信息控制的邏輯,表達成數學運算,然後通過程序與語言,封裝成“計算機算法”,正在締造智能時代。

語言,讓我們能描述複雜信息並進行抽象分析,產生複雜信號

文字,讓我們能將信息信號跨越時空

數據,讓信息信號的可以進行高效處理,讓人類意志在腦外形成變成可能。

因此,當信息和信號更多的數字化後,不管是組織內部的指令系統,還是社會整體的指令系統,都會得到極大的效率提升。

二、互聯網企業為何如此看重數據

1、企業需要更敏銳

互聯網,瞬息萬變,以數據為載體的信息和信號,極大加速市場的反應和反饋。木訥的組織只能在局部細分市場才有一線生機。

數據能有效提高公司運營決策速度,讓企業更為敏銳和敏捷。而基於數據演算能力的智能決策體系,將是終極武器。

2、重視用戶運營,而用戶卻遠在天邊

互聯網企業,藉助互聯網技術,往往能在短時間獲得巨量的用戶,而事實上企業運營人員連用戶的面都沒見過。

真實空間用戶的“遠在天邊”,讓傳統的用戶運營成為難題。而互聯網企業恰恰又最需要用戶運營,因為用戶量是互聯網企業商業模式的基石(互聯網企業創造的價值,可以抽象為利用低廉信息溝通成本節約社會資源。以節約為價值創造的模式,更傾向為規模經濟)。而通過數據運營的方式,可能是唯一的有效方式。

3、數據是互聯網企業與生俱來的資產

互聯網企業,以計算機技術和互聯網技術為基礎,數據與生俱來。

如果利用不好這項資產,等於企業資產不能變現,甚至可能變成不良資產。

4、更為真實

還有重要的原因是,數據所代表的信息,一般是機器對客觀世界的有限描述,而非人為對客觀世界的有限描述。

兩者之間與客觀真實的接近程度,前者更讓企業經營者放心。所以很多老闆都會說,數字是不會騙人的。

三、數據團隊應該如何幫助公司做好數據驅動

一旦涉及實際工作,自然是有很多道道,但其實對認知並無太大幫助,充其量只是技巧。

我總結五點目前在底層思考上指導我判定很多具體工作的要點。

1、客觀真實記錄數據並保存

數據是機器對客觀事件的有限描述,雖然因為沒有主觀偏見,機器描述的客觀一般更接近事實,但依然不能輕視機器的錯誤描述。

人類的認知升級,往往是通過藉助工具,升級對客觀事實的描述而獲得的。如通過玻璃鏡片,讓伽利略論證了日心說,但透鏡的錯誤打磨同樣也會讓我們產生錯誤的認知。數據團隊應該對底層數據的準確性有苛刻的要求。

2、宏觀上合理降維

對數據的降維能力,是數據分析師的核心基礎能力。

語言、文字、數據,本身是也是對信息的一種降維。真正的大師往往一言以蔽之,那是降維的極致。

當然在數據分析工作中,降維不是降的越多越好。降維的目的是提高數據的可讀性。

數據的可讀性通常由數據的量級指標概念的可理解性決定。

降維的主要目的是,將所要反應的事實降維到可讀的數據量級上。但凡是降維必有損耗,必有信息誤解,處理好可讀性,儘量規避誤導,是非常考驗數據分析師個人能力的。

至於降維方法,有很多。如,分割、聚類、模型化、圖形化、複合指標、異常分析等等,我計劃下次另行總結。

做個比喻,降維就如剝洋蔥,怎麼剝要看每個企業自身的紋理。

3、微觀上算法封裝

這個好理解,不多解釋。與機器學習相比,這個相對初級,但也是目前很多產品數據驅動的而主要方式。

4、構建數據流

所構建的數據流應該就是企業的商業模型。

從數倉的架構、到前端報表的體系,無一不是對企業商業模型的註釋和抽象模擬。

5、機器智能

嘗試之。這是一個鴻溝,對我們這一代很多人而言都是這樣的。

目前的深度學習,絕對不是人工智能的終極版本,我們需要持續保持學習和適度應用。

事實上,數據分析師已經被很多企業賦予了某種結論即是真理"的特殊權利,而很多分析師並沒有對這個權利給予應有的敬畏。

與諸位共勉。

“大數據”太扯,談談對企業數據驅動的認知

文章來自數據分析小強的好友EMO親筆

相關推薦

推薦中...