黃欣榮:大數據主義者如何看待理論、因果與規律

大數據 數據挖掘 舍恩伯格 波普爾 光明網頭條號 2017-04-05

作者:江西財經大學管理哲學研究中心主任 黃欣榮

內容提要:大數據主義者強調數據及其相關性在科學發現中的重要地位,但並不否認理論的作用,也不否認因果性的存在,更不否認世界的規律性。大數據主義者試圖克服理論先入為主的偏見,強調讓數據自己說話,增加了數據密集型科學知識生產新方式。大數據主義者試圖用相關性糾正傳統科學對因果性的偏執,科學發現中首先應重點尋找數據間的相關關係,進而為因果關係的發現提供進一步探索的路標。大數據主義者不但承認世界的規律性,而且拓寬了規律的內涵和外延,用數據規律補充了以往那種單一的因果規律,規律的範圍從而得到了重大的拓展。

大數據的興起,給傳統的科學哲學帶來許多新挑戰,特別是對諸如科學理論的作用、因果關係、科學規律等科學哲學的核心問題提出了有別於傳統的新觀點。齊磊磊博士概括總結了大數據相關學者的論述,在《哲學動態》雜誌發表了題為《大數據經驗主義——如何看待理論、因果與規律》的重要文章[1]。她在文中提出了大數據經驗主義的概念,並系統提煉了大數據經驗主義的科學哲學觀點,這是大數據哲學的重要提煉和概括。她認為,大數據經驗主義是一種新經驗主義(以下簡稱為大數據主義),並將其觀點概括為三點:1.在科學理論問題上,大數據主義認為“理論已經終結”,否定科學理論對科學發現的作用;2.在關係到科學存亡的因果性問題上,大數據主義否定因果性的存在,提出由相關性取代因果性;3.在世界的本質問題上,大數據主義否定世界的規律性,認為世界的本質是混亂的。樹立起大數據主義的靶子之後,齊磊磊進行了批判,並明確提出反對大數據主義對大數據的神化。問題是大數據主義果真要徹底否定理論、因果和規律嗎?通過相關文獻的研讀,筆者發現,齊磊磊對大數據主義的概括過於以偏概全。為此,筆者深入大數據學者的原始文獻,按照齊磊磊所分的理論、因果、規律三個維度與其商榷,試圖還原大數據主義的真相,以便讓人們有機會了解大數據主義者的真實觀點究竟是什麼。

一、大數據主義者如何看待理論

齊磊磊將大數據主義的第一個特徵概括為對理論的全盤否定。她認為,在對待理論的態度上,大數據主義持徹底否定的態度,認為在大數據時代,只要數據就夠了,理論成了多餘,甚至徹底無用。齊磊磊得出這個結論的依據主要有三個,一是大數據前期的代表人物安德森的觀點,二是暢銷書《大數據時代》的作者舍恩伯格的觀點,三是哈爾濱理工大學孫博文教授的觀點。孫博文教授的觀點是在一次會議上提出的,筆者沒有參加這次會議,所以無從考證其觀點的原意。下面我們主要來看安德森和舍恩伯格的觀點。

安德森是美國《連線》雜誌的主編和主要撰稿人,齊磊磊引用的觀點出自安德森於2008年6月23日發表在《連線》雜誌上的文章:《理論的終結:海量數據使科學方法變得過時》,不過齊磊磊沒有找到並閱讀原文,只是轉引了舍恩伯格在《大數據時代》一書中所引用的部分觀點。作為大數據時代的預言家,在大數據時代來臨的前夜,安德森就預感到了大數據的浪潮已經驚濤拍岸,並提前預言大數據對我們傳統科學方法將帶來怎樣的革命。安德森一開始就用統計學家喬治·博克斯在30多年前的抱怨:“所有的模型都是錯的,雖然有些很有用”。[2]安德森認為,傳統科學發現的方法都是從理論假設出發,建立模型,然後用經驗檢驗模型的正確性。但這種猜想性的模型往往出錯,而海量數據的出現改變了這種科學知識的生產方式,Google等大數據公司不再首先從理論假設、模型出發,而是從數據出發,從海量數據中歸納、提煉、發現其中的規律。安德森提出這些觀點是有前提的,首先是海量數據,即大數據的出現;二是他談論的主旨是知識發現的問題;三是他所說的“理論的終結”只是針對知識發現的出發點而言。他認為,我們已經進入了PB(Petabytes)時代,即現在所稱的大數據時代,數據資源像洪流一樣爆發、增長。面對PB級別的大數據,小數據時代的“假設—模型—檢驗的科學方法變得過時了”。“現在有更好的方式。允許我們這麼說:相關性就足夠了。我們可以停止尋找模型。我們可以對數據進行分析,而不需要預先假設它會顯示什麼。我們可以把數字扔進世界上從未見過的最大的計算集群中,並讓統計算法找到科學無法找到的模式。”[2]這就是說,在大數據時代,知識的發現可以從數據開始,不再需要預先做出理論的假設。所以,安德森所說的“理論的終結”不是說大數據時代就不需要理論,不再有理論,只是科學發現不再是從理論出發,而是從數據出發。他說:“大量的可用數據,以及處理這些數據的統計工具,提供了一個全新的方式認識世界。通過相關關係而不是因果關係,即使沒有清晰的模型、統一的理論,甚至沒有任何機理解釋,科學依然能夠取得進步。”[2]因此,安德森並不是全盤否定科學理論,只是說在大數據時代,科學發現可以從數據開始,而不是必須從理論假設出發。

齊磊磊認為,舍恩伯格的觀點與安德森一致。其實,舍恩伯格雖然引用了安德森的觀點,並且也同意安德森從數據及其相關性出發來進行科學發現,但在對待理論的態度上,舍恩伯格沒有安德森極端,而是有所保留。舍恩伯格雖然也認為,在大數據時代,從海量數據中發現相關關係比尋找因果關係更重要,科學發現更多地依賴於數據,而不是預設的普遍規則,應儘量讓數據自己說話。在大數據時代,“所有的普遍規則都不重要了……重要的是數據分析,它可以揭示一切問題”。但是,他並不完全否定理論在大數據中的作用,因為“大數據是在理論的基礎上形成的”,例如大數據也要使用統計學理論和計算機理論。在數據的收集、處理、解釋等環節中也要用到相關理論,他在書中明確告誡:“大數據時代不是理論消亡的時代,相反地,理論貫穿於大數據分析的方方面面。”[3]93因此,齊磊磊將舍恩伯格也歸入理論終結論者是不太客觀的。

科學發現模式問題是科學哲學極其重要的問題,歷史上就有“科學始於觀察”還是“科學始於問題”的爭論。大數據來臨前夕,美國計算機專家、圖靈獎得主吉姆·格雷(Jim Gray)就敏銳地認識到大數據對科學發現的意義。他在2007年的一個發言中,首次提出了隨著大數據的興起,科學研究中出現了第四種研究範式。[4]XViii他對歷史上的科學研究範式,即科學發現的模式做了系統的分類,認為歷史上曾出現過三種範式:經驗範式、理論範式和計算範式。經驗範式是科學發現的第一種範式,也是歷史最久的範式,它的邏輯起點是人類的觀察或實驗,然後用歸納法將觀察或實驗數據歸納、提煉出科學理論,這種範式認為科學始於經驗。邏輯實證主義就是這種主張的代表。邏輯實證主義主張“科學始於觀察”,並主張歸納法作為其基本方法。隨著邏輯實證主義被波普爾等後來者多方批判,其主張的發現模式逐漸被波普爾所主張的“科學始於問題”的發現模式所取代,這就是第二種範式,即理論範式,它出現於第一次科學革命之後,此時的科學家主要從已有理論出發,發現問題,然後進行經驗檢驗,這就是波普爾的“猜想—反駁”模式。波普爾最重要的依據是觀察滲透理論,他認為沒有純粹的客觀觀察,科學發現都因我們先有疑問、問題、猜想(P),然後提出相應的嘗試性的假設(TT)或模型,再進行觀察或實驗(EE)以檢驗假設或模型的正確性,這就是波普爾著名的“猜想—反駁”科學發現模式(P1-TT-EE-P2)。第三種範式出現於20世紀50年代計算機發明之後。由於問題的複雜性,我們無法直接觀察或實驗,只能首先建立模型,然後使用計算機進行模擬、仿真或計算,通過仿真、計算來模擬真實場景以達到研究的目的。格雷認為,隨著海量數據的出現,科學發現模式發生了重大變化,在前三種科學發現範式的基礎上出現了第四種範式,即數據密集型科學範式。數據密集型科學範式的邏輯起點是大數據,它從大數據出發,通過數據之間的相關關係發現大數據所呈現出來的數據規律。由大數據所構成的數據世界成為數據密集型科學研究的直接對象,數據挖掘是大數據時代科學研究最重要的方法,數據規律是數據密集型科學最重要的成果。當然,格雷也特別申明,第四種範式與前三種範式並列存在,相互補充,共同構成了科學研究的範式體系,它絕不是要取代前三種範式,只是作為前三種範式的重要補充和完善。格雷對科學研究範式的分類及其對第四種範式的論述,比較充分地表明瞭大數據主義者對經驗、理論和數據的態度。

大數據革命帶來了科學發現的新途徑與新模式,也改變了理論在科學發現中的作用。從大數據相關學者,特別是安德森、舍恩伯格、格雷的論述中,我們可以提煉出大數據主義的科學發現觀以及理論在科學發現中的作用。(1)數據成為科學研究的直接對象。以往的科學研究都是直接面對自然界或人類社會,而大數據的興起以及數據世界的形成,讓我們擺脫了對直接對象的依賴,取而代之的是作為自然或社會現象映射而成的數據世界,這樣科學研究可以直接以數據世界為研究對象。(2)大數據徹底改變了科學數據的採集方式。自從經驗科學興起之後,數據就成為科學研究的重要手段,然而,以往的數據都是研究者預先設計好目的,然後進行觀察或實驗,所得數據已經被觀察者汙染,也就是觀察已經滲透理論。然而,在大數據時代,數據主要來自智能感知設備、網絡瀏覽或者網絡社交等留下的數據足跡,這些數據因為不是研究者預先設計而獲得的,沒有被研究者汙染,因而更具有客觀實在性。(3)大數據時代凸顯出數據在科學發現中的重要作用。以往的科學數據只是驗證科學假說的工具,科學發現主要依賴於理論的猜想,即使是邏輯實證主義的“科學始於觀察”,其觀察仍然滲透著理論。但是,在大數據時代,數據具有了客觀性,而且從數據出發,就能發現數據中蘊含的規律性,因此帶來了“科學始於數據”的科學發現新模式。(4)理論在科學發現中的作用方式發生了重大變化。在大數據時代,初始數據雖未被採集者汙染,但在隨後的數據挖掘過程中,理論開始滲入其中,比如數據倉庫的選取、挖掘工具的選擇以及挖掘結果的解釋等,都滲透著數據挖掘者的意圖。這就是說,在大數據時代,科學發現依然滲透著理論,只是滲透的環節被延後罷了,理論在數據挖掘、科學發現中依然起著重要的作用。

安德森、舍恩伯格和格雷,都是大數據主義的代表人物,他們都強調在海量數據面前,科學發現不能從理論假設出發,必須直接從數據出發,讓數據說話,但是他們並不是徹底排斥理論,只強調大數據時代出現了科學發現的新模式。正如舍恩伯格所說:“大數據絕不會叫囂‘理論已死’,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習慣將被顛覆,很多舊有的制度將面臨挑戰。”[3]94《大數據主義》的作者史蒂夫·洛爾借用人工智能專家彼得·諾威格的話說,數據具有不可思議的威力,“但是,方法論中仍然包括模型,這是毫無疑問的。理論沒有終結,而是正在發展,並擁有各種新的外在形式。”[5]165齊磊磊所說的大數據主義徹底拋棄理論,大數據時代不需要理論,這些並不是大數據主義者的真正主張,而是她對大數據主義者的誤讀,或者說是以偏概全。

二、大數據主義者如何看待因果

齊磊磊對大數據主義第二個批評是大數據的因果觀。她認為,大數據主義者認為,因果性在大數據時代不再存在,已經完全由相關性取而代之。她主要是以舍恩伯格為靶子來進行批判的。她在文章中批評說,舍恩伯格將相關關係分析作為大數據時代的新視野和預測新工具,以此看到了從前未曾留意的聯繫,並掌握了以往難以理解的社會動態和複雜技術。最為關鍵的是,舍恩伯格認為知道“是什麼”就夠了,而不必知道“為什麼”。舍恩伯格還特別強調要“讓數據自己發聲”,不必過多探究現象背後的本質。由此,齊磊磊得出結論說,大數據主義企圖消除因果關係,否定因果律,試圖用事物的相關關係取代因果關係。隨後,她通過因果與相關的概念區別,並從哲學、數學、邏輯等維度來討論兩者之間的區別與聯繫,特別用量子糾纏作案例來說明,由此來批判舍恩伯格觀點的錯誤。

齊磊磊所樹立的批判靶子對嗎?舍恩伯格的真實觀點是什麼?讓我們回到舍恩伯格的文本。據亞馬遜圖書智能推薦系統介紹,舍恩伯格說:“亞馬遜的推薦系統梳理出了有趣的相關關係,但不知道背後的原因。知道是什麼就夠了,沒必要知道為什麼。”[3]71舍恩伯格的確認為,在大數據時代,相關性分析可能比因果性分析更重要。“在小數據世界中,相關關係也是有用的,但在大數據的背景下,相關關係大放異彩。通過相關關係,我們可以比以前更容易、更快捷、更清楚地分析事物。”[3]71舍恩伯格很清楚,因果性是相關性的特殊關係,相關關係缺少因果關係那種必然性,只具有可能性,“相關關係通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制”[3]72。舍恩伯格只是在方法論的意義上對相關性進行肯定,並沒有在本體論上對事物的因果性進行否定。對事物進行因果分析,必須深入把握事物間的內部機制,然而,面對大數據時代的海量數據,這種內部機制很難及時被把握。因此,他認為,與其用臆想的因果假設,不如從表象出發,快速把握它們的相關關係,“大數據的相關關係分析法更準確、更快捷,而且不容易受偏見的影響”[3]75。特別是在日常生活、商業分析中,相關性分析更是一種快速、高效的分析、預測工具,“相關關係很有用,不僅僅是因為它能為我們提供新視角,而且提供的視角都很清晰。而我們一旦把因果關係考慮進來,這些視角就有可能被矇蔽。”[3]88舍恩伯格知道,相關性只是一種表象,因果性才是表象背後的本質,因此他並不否定因果性的存在,相反,他認為相關性是認識因果性的有效途徑。“相關關係分析本身意義重大,同時它也為研究因果關係奠定了基礎。”[3]88“在大多數情況下,一旦我們完成了對大數據的相關關係分析,而又不再滿足於僅僅知道‘是什麼’時,我們就會繼續向更深層次研究因果關係,找出背後的‘為什麼’。”[3]89他明確地表示:“因果關係還是有用的,但是它不再被看成是意義來源的基礎。”在此,我們可以說,舍恩伯格強調了相關性對大數據的重要性,但他並不否定因果性的存在,更沒有說要用相關性完全取代因果性。

史蒂夫·洛爾在《大數據主義》一書中提出要“釐清大數據中的相關關係與因果關係”,認為相關關係可以為商業、醫學等應用領域提供有效的預測工具,但不能因此否定因果性。他借用IBM人工智能專家費魯奇的話說:“對於大量商業決策而言,有相關性就能得出令人滿意的結果”。但是,“僅憑相關性是不夠的”,“還要對因果關係產生有啟發性的認識,包括理論、假設、現實世界的心理模型、事情的原委等,兩者必須更密切地相互配合”[5]163-164。

英國韋斯特敏斯特大學的David Chandler在論文《沒有因果的世界:大數據與後人類時代的來臨》中認為,大數據並不是要取代因果關係,它只是帶來了新的歸納方法和新的知識生產方式。[6]牛津大學互聯網研究中心的Josh Cowls和Ralph Schroeder在論文《因果性、相關性及社會科學研究的大數據》中,通過訪談26位學者,詳細論述了大數據時代的因果性與相關性的關係。[7]受訪者認為,理論終結及取代因果的說法有點過分誇張,但大數據對他們的影響的確很大,它使得社會科學研究所需數據的採集、處理變得容易。至於相關性和因果性問題,這取決於何種類型的研究:如果是商業應用之類的研究,找到相關性就夠了,但社會科學理論研究則仍然需要因果性。

歸納起來,大數據主義對相關性與因果性的態度是:在大數據時代,由於數據的暴增,尋找數據間的相關性比因果性更重要,大數據主義承認事物的因果性,但更應該把握事物的相關性。齊磊磊說大數據主義否認因果性的存在,它已被相關性完全取代,這是對大數據主義的誤解或誤讀。大數據主義為什麼強調相關性,弱化因果性呢?我們可以從四個方面來說明。(1)就相關性與因果性的關係來說,相關性更廣泛,因果性更嚴格,因果性是相關性的一種特例。在哲學史上,對這兩者關係的討論很多,齊磊磊不但回顧了哲學史上兩者之間的關係,而且從數學的集合論和函數關係論證了“相關性是一種比因果性更廣泛的概念”,因果性是相關性的一種特殊狀態。(2)大數據並不否定因果,只是不強調因果。自休謨對因果性進行全面懷疑和批判以來,雖然眾多科學家、哲學家做出了種種努力,但仍然很難證明某兩種現象或事物之間就一定存在著因果關係。休謨只是把因果性看成是人們的一種習慣,康德的《純粹理性批判》也只是做出了一種工具主義的修補,仍然沒法證明因果性的必然性。大數據沒有站到徹底否定因果性的隊伍中,而是承認因果性,但從相關性入手來把握。從方法論來說,相關性比較表象,只要兩者之間有依隨關係就認為具有相關性,因此容易被識別;而因果性則要反映事物之間內在的本質關係,這就不容易被認識和把握。大數據從相關性而不是因果性入手,是一種聰明的方法論策略。(3)大數據時代的來臨,海量數據使得尋找因果關係如同大海撈針一樣困難。大數據時代的數據量迅速發展到PB、ZB級別,要在這麼多的數據中找到與某數據具有因果關係的另一個數據,這比大海撈針還困難。正如統計物理學面對海量的分子,研究者無法跟蹤每個分子的運動軌跡以及它們之間的因果關係,只能用統計學的方法研究大量分子運動所表現出來的宏觀行為和規律,而且這些規律只遵從統計規律,沒有因果規律那種必然性。PB、ZB級別的數據,跟統計物理學所面對的海量分子一樣,我們不可能跟蹤每個數據的來龍去脈、前因後果,只能使用數據挖掘工具挖掘出數據之間所表現出來的宏觀行為以及數據之間的相關關係。(4)日常生活、商業應用中,相關關係就已經足夠。在許多場合,我們的確不需要知道事物之間內在的因果關係,只要知道它們之間具有依隨性質的相關關係,在我們發現某現象或數據變化時,大致能夠推斷與之相關的另一個現象或數據也可能會發生變化。例如,我們發現,天氣長期下雨會帶來雨具銷售的增加,而我國南方總是春雨綿綿,於是聰明的商家早已準備好了各種雨具來迎接南方雨季的到來。又如,每年大學新生開學季,都有大量的銀行卡、手機卡等商業機會,於是聰明的商家早已與學校相關部門將各種卡隨錄取通知書投送到新生手中。對商業應用來說,最關鍵的是快速抓住機會,至於背後的因果關係則留給學者們去探討。

總之,大數據主義不是要否定事物之間的因果性,並用相關性取代,只是不再過分執著於事物因果性的追求,採取從表象的、數據之間的相關性入手,發現數據規律,然後由此作為路徑,再打開黑箱,尋找數據之間的因果關係。由此,相關關係就成了尋求因果關係的一把方便鑰匙。當然,大數據也能夠接受暫時找不到因果關係,只能找到相關關係的情況存在。

三、大數據主義者如何看待規律

在對待世界的本質及其規律性問題上,齊磊磊說,大數據主義否認世界的規律性,將世界的本質歸結為混亂的數據。她把大數據主義的觀點與卡特萊特為代表的新經驗主義相比較,並由此來批判大數據主義者。齊磊磊對大數據的世界觀和規律觀的批判主要從統計學家的觀點和網絡科學家巴拉巴西的觀點這兩條路徑來進行。她引用統計學家的觀點說,統計樣本的增加不一定能夠增加統計的精確性,只有增加採樣的隨機性才能提高統計的精確性。她用舍恩伯格的“大數據的核心在於預測”來反證舍恩伯格主張世界混雜性的錯誤。此外,她引用巴拉巴西在其《爆發:大數據時代預見未來的新思維》的觀點來證明世界的規律性和可預測性。

齊磊磊所批判的觀點主要來自舍恩伯格,因此我們有必要先還原舍恩伯格究竟說了些什麼。舍恩伯格認為,萬物皆數,通過大數據技術,一切現象或行為皆可轉化為數據,這就是他所說的“量化一切”。通過智能感知、萬物互聯等量化手段之後,現象世界就映射為一個“數據世界”,這個數據世界可以被智能設備所識別、儲存、傳輸和計算,世界的存在變成了數據的泛在。這樣,數據就成了世界的本質屬性,所以舍恩伯格說“世界的本質是數據”[3]125。

舍恩伯格認為,在大數據時代,數據的獲取變得十分容易,數據規模也暴增到海量,因此現在人們已經徹底告別了數據缺乏的時代,並進入到一個數據豐裕的時代。正因如此,舍恩伯格才強調,人們沒必要再依靠抽樣調查等手段來獲取數據,可以採取一網打盡的“全數據模式”。由於數據來源多樣化,數據規模海量化,因此,一方面這些數據難免魚龍混雜,失去傳統的精確性,另一方面數據的多樣性也反映了世界的多樣性。齊磊磊所批判的“混亂”,舍恩伯格所用的英文是messy,其本義的確有“混亂”的意思,但也有“混雜”、“複雜”之義。[8]33中文版的《大數據時代》大部分時候都將其譯成“混雜”,偶爾譯成“混亂”。“混雜”的譯法比較合適,而“混亂”則誤解了舍恩伯格的原意。“只有5%的數據是結構化且能適用於傳統數據庫。如果不接受混雜,剩下95%的非結構化數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。”[3]45因此,舍恩伯格提出應該允許和接受混雜性,不再過分執著於追求精確性。舍恩伯格並沒有由此推斷出世界就不再有規律性,相反,他正是想通過認識、接受混雜性來更好地把握世界的規律性,正如他自己所說:“接受數據的不精確和不完美,我們反而能更好地進行預測,也能更好地理解這個世界。”[3]56

從大數據學者的論述中,我們可以看出大數據主義者對世界觀、規律性的態度。歸結起來,主要表現為如下五個方面,即整體主義、複雜多樣、關注細節、數據規律、透明世界。

(1)整體主義。自從古希臘以來,西方科學主要是通過打開黑箱,還原到部分甚至是“始基”去研究其中的奧祕。這種還原方法論反映到數據採集上就是受控實驗或抽樣調查方法。由於技術能力的限制,以往的數據採集只能在理想化處理之後,通過精心設計的受控實驗,或精心設計調查問卷和調查對象之後所進行的抽樣調查來獲取所需的數據。小數據時代的隨機採樣就是試圖以最少的數據獲得最多的信息,這就是將複雜的現象還原為少量的抽樣數據。大數據時代的來臨,讓我們不再需要選取樣本,或者說樣本量可以最大化,這就是大數據的“全數據模式”。由於與對象相關的所有可能性都包括其中,至大無外,所以這其實就是一個整體。以往我們經常說要用整體論的視野看問題,但由於沒有將整體技術化,在解決實際問題時依然應用部分代替整體的還原方法。大數據的“全數據模式”將傳統整體論數據化,用全部數據代表整體,並可以進行計算、分析,是一種數據化、可操作的整體觀,因此大數據主義是一種數據化的整體主義。[9]

(2)複雜多樣。經過孤立、靜止、抽樣等理想化處理,所獲數據變得簡單、純粹、單一,所反映出來的現象世界也變成了簡單、單一的理想世界。大數據時代的數據來自各種途徑,例如各類傳感器數據、網絡瀏覽數據、網絡社交數據、電話短信數據、消費數據、刷卡數據等等,這些數據都屬於原始數據。因此,數據粗糙、類型多樣。但是,大數據時代的數據由於沒有人工的預先參與,因而未被人工汙染。因此,保留了原始l生、粗糙性、複雜性、多樣性等,由此所反映出來的現象世界也變成了一個複雜多樣的真實世界。複雜性科學早就批判了傳統科學的理想化和簡單化,認為真實世界是複雜、粗糙、多樣的世界,而大數據技術則用可計算的海量數據來刻畫了複雜性科學的理念,讓複雜性的科學理念變成了大數據的技術手段。

(3)關注細節。理想化之後的受控實驗和抽樣調查,都是選取預先被認為重要的少量數據來代表所有數據,或者說由少量數據來描述真實世界的複雜現象,例如全國大學生有幾千萬,但不少做大學生相關問題調查的研究者往往在幾所大學發放幾百份問卷,就得出全國大學生怎麼樣的結論。做抽樣調查者辯護說,只要能夠保證抽樣的絕對隨機性,少量樣本就能代表全體。問題是,我們怎麼知道具有絕對隨機性?事物本身千差萬別、豐富多彩,少量樣本又怎麼來代表這些細節?大數據讓所有樣本都保留,不要少數樣本來代表自己,這樣每個樣本的獨特之處、出彩之處都有可能保留下來。因此,大數據的“全數據模式”就保留了每個樣本的豐富細節和個性,具有統計學所說的“遍歷性”,而且數據越多,細節越豐富。抽樣的數據無法被放大以便觀察細節,而大數據的數據可以被隨意組合、放大,可以追溯每個數據的細節,大數據成了數據顯微鏡。因此,大數據比以往的小數據更加關注細節,更加註重個性。

(4)數據規律。小數據時代根據因果推理所得到的規律叫做因果規律,簡稱為規律。因果規律被認為具有確定性和普遍必然性,具有放之四海而皆準的可重複性。利用因果規律,不但能夠解釋過去發生的事件,而且可以預測未來事件的發生。大數據不再執著追求因果必然性,而是側重於通過數據之間的關聯性來尋找事件之間的相關性,並根據數據挖掘、分析得出具有概率性的數據規律。這種數據規律只是數據之間的關聯性,不一定具有普遍必然性,也不一定具有絕對的可重複性,因此在因果論者看來,這種數據規律根本就不算規律,並由此推斷大數據主義否定規律,並說大數據主義者將世界看作是一個混亂無序的世界。數據規律是不是規律呢?數據規律也能夠解釋過去,預測未來,而且在無法得到因果規律的時候,數據規律可以大顯身手,因此數據規律也是規律的一種類型。大數據主義不但承認世界規律的存在,而且拓展了規律的內涵和外延,將數據規律納入規律的範疇,用數據規律補充了因果規律之不足。舍恩伯格和巴拉巴西都承認在混雜多樣的世界都能找到規律,不能找到因果規律,起碼能找到數據規律,而且利用數據規律,再複雜的現象都可以解釋和預測,甚至小數據時代難以認識和預測的人類行為,都能做出高達93%以上的準確預測。[10]13因此,大數據沒有否定規律,只是拓展了規律的內涵和外延,以便更好地認識和把握複雜世界的規律。

(5)透明世界。大數據技術可以將一切現象、行為數據化,萬物的背後都留下了一條可被存儲、識別的數據鏈。這些數據在沒有發現用途的時候往往被看作是數據垃圾,但事實上這些數據全程記錄了事物的存在和演化的全息軌跡。這些數據被永遠存儲於網絡、雲端,幾乎難於被徹底消除,因此即使某事物已經消失,但與其對應的數據足跡依然存在於數據世界中。通過對數據世界的挖掘,一切都無法偽裝和隱藏,就像真有上帝之眼一樣被永遠地監視著。數據化的世界是一個可以永遠被存儲、識別、挖掘的世界,通過相關性不但能夠知道過去的一切,而且未來的一切也可以被掌控。自然界及其規律都隱藏在黑暗中,但在大數據的陽光照耀下,世界的一切都變成了透明。因此,大數據時代的世界是一個徹底透明的世界。

綜上,大數據主義者並不否定科學理論或終結科學理論,只是從海量數據中進行知識發現時不能預先帶著理論的有色眼鏡,必須先“讓數據說話”,尊重數據本身顯現出來的規律,數據採集環節不一定預先依賴理論,但在數據挖掘和知識生產中,大數據主義仍然承認理論的作用。大數據不否定事物因果性的存在,但數據挖掘時不會一開始就糾結於因果性,它更重視數據顯現出來的相關性。如果需要,我們可以在認識相關性之後再進一步深挖因果性,相關性為尋求因果性提供了猜想的路徑。大數據主義者認為,世界是複雜多樣的,但皆可被數據化,通過數據之間的相關性能夠挖掘出事物間的數據規律,並通過數據規律來解釋、預測由因果規律難於解釋和預測的複雜現象。因此,他們不但承認世界的規律性,而且在以往難於發現規律的地方找出規律,讓科學的陽光照亮混雜世界的每一個角落,我們的世界變成了一個完全透明的世界。所以,齊磊磊認為大數據主義者否認理論、否認因果、否認規律的說法是不太符合實際的。

(參考文獻略)

相關推薦

推薦中...