大數據的特點有哪些?

大數據 BigTable Velocity IBM 大海滔滔 2017-06-04

大數據的特點有哪些?

談到大數據,很多人的第一反應就是非常大量的數據,其實不然,5P的數據也許不是大數據,1P的反而是大數據。也就是說,大數據並不意味著絕對的數據所佔空間的巨大。

那麼,怎麼理解大數據的“大”呢?我覺得吳軍博士在《智能時代》一書中對於“大”有一段精彩的描述:

英語裡的large和big翻譯成中文都是大的意思,因此很少有人關心為什麼大數據使用"big data"這個英語詞組,而不是"large data"。但是,在大數據被提出之前,很多通過收集和處理大量數據進行科學研究的論文,都採用large或者vast(海量)這兩個英文單詞,而不是big。比如我們常常可以看到論文的標題包含"large Scaled...""Vast Data""Large Amount..."等詞組,但是很少用Big。

那麼big,large和vast到底有什麼差別呢。large和vast在程度上略有差別,後者可以看成是very large的意思。而big和它們的差別在於,big更強調的是相對小的大,是抽象意義上的大,而large和vast常常用於形容體量的大小。比如"large table"常常表示一張桌子的尺寸很大,而如果說"big table"其實是要表示這不是一張小桌子,真實尺寸是否很大倒不一定,但是這樣的說法是要強調已經稱得上大了,比較抽象。

通過上面的描述我們可以有一個認識,就是大數據的“大”是相對的,不是絕對的,不是說有一個標準,超過多少就是大數據,沒超過就是小數據。那問題又來了,什麼樣的數據就是相對的“大”呢?這其實就是今天我們要探討的,大數據的特點,也就是說,具備這些特點的數據就是所謂的大數據,不具備這些特點,你就是搞出來1個ZB的數據(小科普一下,1ZB=1024×1024×1024TB),也不算大數據。

大數據的特點有哪些?

說來說去,到底大數據有什麼特性啊?你還說不說,不說走了啊。

哎,別急別急,這就開始說嘛。

先看看業界大牛們都怎麼說,最流行的是下面的段子:

業界(其實就是IBM,IBM牛嘛)將大數據的特徵歸納為4個“V”(大量Volume,多樣性Variety,價值Value,及時性Velocity):第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快而且及時。

我最煩老外動不動就把個什麼破事總結成4V、5S、3P、雙飛啥的,咦,好像有奇怪的東西混進來了,不要關注這些細節,我們都是正能量,哈!有時候往往為了拼湊而喪失了本來的含義。

吳軍博士就對此提出了自己的看法,他認為大數據的核心特點是:

★大數據最明顯的特徵是體量大。

★(大數據的特性中)其中最重要的含義是多維度。實際上,多維度的講法更加簡明而準確。

★大數據的第三個重要特徵,就是它的全面性,或者說完備性。

看看,大牛們打起來啦吧,吳軍博士直接把Value忽略了,Variety也不太認可,認為更重要的不是多樣,而是多維度,Velocity直接就覺得不重要,反而覺得全面和完備是大數據更重要的特性。

大數據的特點有哪些?

再來看王堅博士的觀點,王堅博士走的更遠,直接把4V扔進了垃圾堆。王堅博士在《在線》一書中有如下描述:

我分享時說“大數據”這個名字叫錯了,它沒有反映出數據最本質的東西。

其實大數據很早以前就有,只是那時的“大”還沒有意義。世界上最大的數據估計和互聯網一點關係都沒有,最大的數據估計存在於歐洲核子研究組織(CERN),那裡的對撞機中運算的數據可能一輩子都算不完。

今天數據的意義並不在於有多“大”,真正有意思的是數據變得在線了,這恰恰是互聯網的特點。所有東西都能在線這件事,遠比“大”更能反映本質。

哇!不愧是阿里的技術委員會主席,直接否了大數據這個詞了。

再來看看維克托·邁爾·舍恩伯格在《大數據時代》一書中是怎麼描述大數據的:

大數據是人們在大規模數據的基礎上可以做到的事情,而這些事情在小規模數據的基礎上是無法完成的。大數據是人們獲得新的認知,創造新的價值的源泉;大數據還是改變市場、組織機構,以及“政府”與公民關係的方法。

好,看完了各路大神的論述,對大數據的特性是不是徹底混亂了?沒關係,看我的乾坤大挪移神功!

我把大牛們的中心思想總結了一下,提出了大數據的特性理解:

1、數據在其應用領域相對較大。例如,當我們研究全國人民的姓氏時,13億人的全部名稱就是這個領域最大的數據了,也許在硬盤上只佔幾百M的空間,但是已經是相對較大的數據;

2、數據具備可操作性。即數據是否可以被計算機進行運算與操作,是否在互聯網上倒不是必須的,因為一些數據的天然特性是不能存在於互聯網中的。但是必須要通過計算機可處理,如果該數據不具備可操作性,一般也就談不上我們理解的大數據;

3、數據具有一定程度的完整性、連續性,即可分析。假如我們手裡有3000輛汽車的運行數據,但是都是斷裂的、錯誤的,就很難進行分析和處理。

我個人認為如果數據具備以上幾個特點,其實就可以說是我們一般人理解的大數據了。

相關推薦

推薦中...