'由Hadoop驅動的原始大數據時代已於2019年6月結束……'

"
全文共3946字,預計學習時長8分鐘
"
全文共3946字,預計學習時長8分鐘
由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@ev


隨著當下的重點從收集數據轉向實時處理數據,大數據時代正走向消亡。如今大數據是種商業資產,為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。

"
全文共3946字,預計學習時長8分鐘
由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@ev


隨著當下的重點從收集數據轉向實時處理數據,大數據時代正走向消亡。如今大數據是種商業資產,為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

原始大數據時代終結於2019年6月5日,這一天,湯姆賴利宣佈自己即將從Cloudera辭職,隨後Cloudera的市值下降。加上MapR最近宣佈可能關門大吉,能否繼續運營將取決於MapR能否找到買家。這些都強烈表明,由Hadoop驅動的原始大數據時代已於2019年6月結束。


大數據將被銘記,因為在它的幫助下,社交媒體開始佔據主導地位,它從根本上改變了企業處理大量數據的思維模式。而且,數據分析、數據質量和數據管理可以作為衡量企業資產的標準。


對大數據時代致以悼詞的同時,需要強調的是大數據技術實際上並未消亡。但鑑於它已經在企業中建立了自己的地位,基於Hadoop的原始大數據時代已經趨於成熟。大數據不再是無限增長、高速運轉的炒作週期的一部分,而是一項成熟的技術。

"
全文共3946字,預計學習時長8分鐘
由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@ev


隨著當下的重點從收集數據轉向實時處理數據,大數據時代正走向消亡。如今大數據是種商業資產,為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

原始大數據時代終結於2019年6月5日,這一天,湯姆賴利宣佈自己即將從Cloudera辭職,隨後Cloudera的市值下降。加上MapR最近宣佈可能關門大吉,能否繼續運營將取決於MapR能否找到買家。這些都強烈表明,由Hadoop驅動的原始大數據時代已於2019年6月結束。


大數據將被銘記,因為在它的幫助下,社交媒體開始佔據主導地位,它從根本上改變了企業處理大量數據的思維模式。而且,數據分析、數據質量和數據管理可以作為衡量企業資產的標準。


對大數據時代致以悼詞的同時,需要強調的是大數據技術實際上並未消亡。但鑑於它已經在企業中建立了自己的地位,基於Hadoop的原始大數據時代已經趨於成熟。大數據不再是無限增長、高速運轉的炒作週期的一部分,而是一項成熟的技術。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

大數據和Hadoop在谷歌引擎上的搜索量變化


大數據的誕生


2006年,Apache Hadoop開始投入使用,大數據時代隨之到來。當時開發人員和架構師認為這一工具能夠幫助處理和存儲多結構化和半結構化數據。人們對企業數據的看法發生了根本性的轉變,不再侷限於傳統企業數據庫的ACID(原子性、一致性、隔離性和持久性)等特性。公司意識到先前丟棄或封存的數據實際上可能有助於理解客戶行為、採取行動的傾向、風險因素以及複雜的組織、環境和商業行為,這導致了數據用例的變化。


Hadoop的商業價值最初出現於2009年,當年Cloudera發佈商業版本,MapR、Hortonworks和EMC Greenplum(如今的Pivotal HD)緊隨其後。儘管分析師們紛紛預測大數據是個價值500億美元以上的潛在市場,但作為分析工具,Hadoop最終在21世紀的前十年遭遇挑戰。


Hadoop在企業界遭遇的挑戰


儘管Hadoop在大型存儲、ETL(提取、轉換和加載)作業以及通過批處理支持機器學習任務等方面作用顯著,但對於企業和大型組織用於日常決策的、較為傳統的分析工作而言,它並非最佳選擇。比起Hadoop,Hive、Dremel和Spark等工具更適用於分析。並且Hadoop的運行速度不夠快,無法真正代替數據倉庫。


Hadoop還面臨著其他挑戰。在處理原本Hadoop旨在解決的存儲和管理難題時,NoSQL數據庫和對象存儲提供商取得了重大進展。而隨著時間的推移,無法實現業務連續性、缺乏靈活性,難以勝任實時分析、地理空間和其他新興分析用例等,這使得Hadoop的業務範圍難以從批量處理擴展到大量數據。


此外,隨著時間的推移,企業發現越來越多的大數據問題需要廣泛的數據來源,對數據模式、查詢和定義進行快速調整,以及反映新的應用程序、平臺和雲產業供應商使用情況的具體情境。為了解決這一難題,分析、集成和複製等操作必須更加敏捷和快速。許多供應商應運而生,包括:


· 分析解決方案提供商,如ClearStory Data,Domo,Incorta,Looker,Microsoft Power BI,Qlik,Sisense,Tableau和ThoughtSpot


· 數據信道供應商,如Alooma,Attunity,Alteryx,Fivetran和Matillion


· 數據集成供應商,包括Informatica,MuleSoft,SnapLogic,Talend和TIBCO(它們還通過Spotfire產品組合在分析領域相互競爭)


不論從收購還是資金的角度來看,這類公司似乎都成了萬眾矚目的焦點,這絕非巧合。最近的例子包括但不限於:

· ThoughtSpot於2018年5月D輪融資1.45億美元

· Sisense於2018年9月E輪融資8000萬美元

· Incorta於2018年10月B輪延期融資1500萬美元

· Fivetran於2018年12月A輪融資1500萬美元

· Looker於2018年12月E輪融資1.03億美元

· TIBCO於2018年12月收購Orchestra Networks

· LogiAnalytics於2019年2月收購Jinfonet

· Google於2019年2月收購Alooma

· Qlik於2019年2月收購Attunity

· Informatica於2019年2月收購AllSight

· TIBCO於2019年3月收購SnappyData

· Alteryx於2019年4月收購ClearStory Data

· Matillion於2019年6月C輪融資3500萬美元

· Google計劃於2019年6月收購Looker

· Salesforce計劃於2019年6月收購Tableau

· LogiAnalytics於2019年6月收購Zoomdata


這些公司的成功反映了社會需要分析師、數據和靈活的平臺,以提高在具體情境下來自不同雲端和來源的數據的分析價值。2019年,這類公司行為還會更多,因為其中一些公司要麼是私募股權所有,要麼已經獲得了大量風險投資,它們需要儘快退出,為未來的風險投資積蓄基金。

"
全文共3946字,預計學習時長8分鐘
由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@ev


隨著當下的重點從收集數據轉向實時處理數據,大數據時代正走向消亡。如今大數據是種商業資產,為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

原始大數據時代終結於2019年6月5日,這一天,湯姆賴利宣佈自己即將從Cloudera辭職,隨後Cloudera的市值下降。加上MapR最近宣佈可能關門大吉,能否繼續運營將取決於MapR能否找到買家。這些都強烈表明,由Hadoop驅動的原始大數據時代已於2019年6月結束。


大數據將被銘記,因為在它的幫助下,社交媒體開始佔據主導地位,它從根本上改變了企業處理大量數據的思維模式。而且,數據分析、數據質量和數據管理可以作為衡量企業資產的標準。


對大數據時代致以悼詞的同時,需要強調的是大數據技術實際上並未消亡。但鑑於它已經在企業中建立了自己的地位,基於Hadoop的原始大數據時代已經趨於成熟。大數據不再是無限增長、高速運轉的炒作週期的一部分,而是一項成熟的技術。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

大數據和Hadoop在谷歌引擎上的搜索量變化


大數據的誕生


2006年,Apache Hadoop開始投入使用,大數據時代隨之到來。當時開發人員和架構師認為這一工具能夠幫助處理和存儲多結構化和半結構化數據。人們對企業數據的看法發生了根本性的轉變,不再侷限於傳統企業數據庫的ACID(原子性、一致性、隔離性和持久性)等特性。公司意識到先前丟棄或封存的數據實際上可能有助於理解客戶行為、採取行動的傾向、風險因素以及複雜的組織、環境和商業行為,這導致了數據用例的變化。


Hadoop的商業價值最初出現於2009年,當年Cloudera發佈商業版本,MapR、Hortonworks和EMC Greenplum(如今的Pivotal HD)緊隨其後。儘管分析師們紛紛預測大數據是個價值500億美元以上的潛在市場,但作為分析工具,Hadoop最終在21世紀的前十年遭遇挑戰。


Hadoop在企業界遭遇的挑戰


儘管Hadoop在大型存儲、ETL(提取、轉換和加載)作業以及通過批處理支持機器學習任務等方面作用顯著,但對於企業和大型組織用於日常決策的、較為傳統的分析工作而言,它並非最佳選擇。比起Hadoop,Hive、Dremel和Spark等工具更適用於分析。並且Hadoop的運行速度不夠快,無法真正代替數據倉庫。


Hadoop還面臨著其他挑戰。在處理原本Hadoop旨在解決的存儲和管理難題時,NoSQL數據庫和對象存儲提供商取得了重大進展。而隨著時間的推移,無法實現業務連續性、缺乏靈活性,難以勝任實時分析、地理空間和其他新興分析用例等,這使得Hadoop的業務範圍難以從批量處理擴展到大量數據。


此外,隨著時間的推移,企業發現越來越多的大數據問題需要廣泛的數據來源,對數據模式、查詢和定義進行快速調整,以及反映新的應用程序、平臺和雲產業供應商使用情況的具體情境。為了解決這一難題,分析、集成和複製等操作必須更加敏捷和快速。許多供應商應運而生,包括:


· 分析解決方案提供商,如ClearStory Data,Domo,Incorta,Looker,Microsoft Power BI,Qlik,Sisense,Tableau和ThoughtSpot


· 數據信道供應商,如Alooma,Attunity,Alteryx,Fivetran和Matillion


· 數據集成供應商,包括Informatica,MuleSoft,SnapLogic,Talend和TIBCO(它們還通過Spotfire產品組合在分析領域相互競爭)


不論從收購還是資金的角度來看,這類公司似乎都成了萬眾矚目的焦點,這絕非巧合。最近的例子包括但不限於:

· ThoughtSpot於2018年5月D輪融資1.45億美元

· Sisense於2018年9月E輪融資8000萬美元

· Incorta於2018年10月B輪延期融資1500萬美元

· Fivetran於2018年12月A輪融資1500萬美元

· Looker於2018年12月E輪融資1.03億美元

· TIBCO於2018年12月收購Orchestra Networks

· LogiAnalytics於2019年2月收購Jinfonet

· Google於2019年2月收購Alooma

· Qlik於2019年2月收購Attunity

· Informatica於2019年2月收購AllSight

· TIBCO於2019年3月收購SnappyData

· Alteryx於2019年4月收購ClearStory Data

· Matillion於2019年6月C輪融資3500萬美元

· Google計劃於2019年6月收購Looker

· Salesforce計劃於2019年6月收購Tableau

· LogiAnalytics於2019年6月收購Zoomdata


這些公司的成功反映了社會需要分析師、數據和靈活的平臺,以提高在具體情境下來自不同雲端和來源的數據的分析價值。2019年,這類公司行為還會更多,因為其中一些公司要麼是私募股權所有,要麼已經獲得了大量風險投資,它們需要儘快退出,為未來的風險投資積蓄基金。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@jontyson

隨著大數據時代的消亡,我們將進一步享受到多雲時代、機器學習時代以及實時和無處不在的上下文時代等大數據時代帶來的福利。


多雲時代更加需要跨多個雲支持現有的各種應用程序和平臺,更加需要持續服務和業務連續性。“已經有用於處理這個任務的應用程序”的心態使得企業中平均每個員工都有1個SaaS應用程序,這意味著每個大型企業都要支持數千個SaaS應用程序的數據和流量。後端容器化的發展導致存儲和工作負載環境趨向分散化和專業化,以支持按需和峰值使用環境。


機器學習時代的特徵是重視分析模型、算法、模型訓練、深度學習以及算法和深度學習技術的倫理。機器學習的大部分工作和以分析為目的的數據清洗工作相同,但還需要額外的數學、商業和道德研究來創造持久和長期的價值。


實時和無處不在的上下文時代更加需要從分析和參與的角度及時更新。從分析的角度來看,僅僅每週一次或每天一次更新公司分析處理結果已經無法滿足需求。如今員工需要近乎實時的更新,否則就有可能做出已經過時的決策。有效使用實時分析需要廣泛的業務數據以提供適當的具體情境,並基於數據和需求執行分析。無處不在性還要求交互,要求物聯網提供更多對環境和機械活動的邊緣觀察,同時也要求尚在發展中的擴展現實世界——包括增強和虛擬現實——為用戶提供身臨其境的情景。為了提供這種級別的交互,必須以短至300-500毫秒的交互速度分析數據,以提供有效的行為反饋。


隨著大數據時代的結束,可以更多地關注對大量數據進行處理、分析和實時交互的無數難題,而不是收集大量數據的方式。在邁入大數據驅動的新時代之前,請牢記以下幾個概念。


首先,Hadoop仍然在企業數據領域佔有一席之地。Amalgam Insights預測MapR最終將成為一家以管理BMC、CA或Micro Focus等IT軟件而聞名的公司,並且它認為Cloudera已採取措施改進Enterprise Hadoop以支持下一個數據時代。但技術的發展毫不留情,Cloudera的癥結在於它是否可以快速轉型。在將企業數據平臺發展為下一代研究和機器學習平臺方面,Cloudera面臨著數字轉型挑戰。過去幾十年來,公司一直能夠確定轉型的時間軸。如今,正如亞馬遜、Facebook和微軟那樣,成功的科技公司必須準備好每十年進行一次改革,甚至蠶食自己的一部分以保持活力。


其次,對多雲分析和數據可視化的需求比以往任何時候都大。谷歌和Salesforce前不久花費了180億美元用於收購Looker和Tableau,這些收購基本上是根據規模和收入增長情況進行的市價收購。還將有數十億美元將用於研究各種來源的數據的分析方案,並用於支持與多雲相關的日益分散和多樣化的存儲、計算和集成需求。這意味著企業需要戰略性地確定數據集成、數據建模、分析和/或機器學習/數據科學團隊將在多大程度上解決這些問題,因為異構數據的處理和分析變得越來越困難和複雜,而且仍須支持戰略業務需求並將數據用作真正的戰略優勢。


第三,機器學習和數據科學是下一代解析性分析,需要獨特的新型數據管理工作。大規模地創建測試數據、合成數據和掩蔽數據以及譜系、治理、參數和超參數定義以及算法使用需要超越傳統的大數據。最值得擔心的是,因為樣本量小、數據源不足、數據定義不清晰、數據情境不佳,或者算法和分類假設不準確等原因,使用不能勝任業務的數據。換句話說,不要使用謊言數據。謊言數據會導致偏頗、不合規、不準確的結果,並可能導致類似Nick Leeson在1995年毀掉Barings Bank,或Societe Generale由於Jerome Kerviel操縱交易產生70億美元交易損失的後果。AI現在是新的潛在“流氓交易者”,需要得到適當的監控、管理和支持。


第四,實時和無處不在的環境是對數據的挑戰,同時也是對協作和技術的挑戰。人們正在進入這樣一個世界,在這個世界裡,每個對象、過程和對話都可以通過附加的文本進行標記,加上字幕或擴充,並且可以實時處理數十億字節的數據,以產生一個“慢下來”或者“現在就買”這樣簡單的警報。Gong、Tact和Voicera等公司嘗試以數字方式記錄、分析並使用額外文本增強模擬對話,為工業界的PTC,GE以及其他產品生命週期和製造業、商業公司創建了“數字雙胞胎”的概念。


結論

總之,大數據時代已經結束。但在此過程中,大數據本身已成為IT的核心方面,並發展出一系列新的時代,每個時代都有光明的未來。投資大數據的公司應將這些投資視為未來實時、增強和互動參與公司的重要基礎。隨著大數據時代的結束,現在準備將整個大數據作為商業資產,而不僅僅是炒作,以支持基於工作的情境、機器學習和實時交互。


"
全文共3946字,預計學習時長8分鐘
由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@ev


隨著當下的重點從收集數據轉向實時處理數據,大數據時代正走向消亡。如今大數據是種商業資產,為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

原始大數據時代終結於2019年6月5日,這一天,湯姆賴利宣佈自己即將從Cloudera辭職,隨後Cloudera的市值下降。加上MapR最近宣佈可能關門大吉,能否繼續運營將取決於MapR能否找到買家。這些都強烈表明,由Hadoop驅動的原始大數據時代已於2019年6月結束。


大數據將被銘記,因為在它的幫助下,社交媒體開始佔據主導地位,它從根本上改變了企業處理大量數據的思維模式。而且,數據分析、數據質量和數據管理可以作為衡量企業資產的標準。


對大數據時代致以悼詞的同時,需要強調的是大數據技術實際上並未消亡。但鑑於它已經在企業中建立了自己的地位,基於Hadoop的原始大數據時代已經趨於成熟。大數據不再是無限增長、高速運轉的炒作週期的一部分,而是一項成熟的技術。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

大數據和Hadoop在谷歌引擎上的搜索量變化


大數據的誕生


2006年,Apache Hadoop開始投入使用,大數據時代隨之到來。當時開發人員和架構師認為這一工具能夠幫助處理和存儲多結構化和半結構化數據。人們對企業數據的看法發生了根本性的轉變,不再侷限於傳統企業數據庫的ACID(原子性、一致性、隔離性和持久性)等特性。公司意識到先前丟棄或封存的數據實際上可能有助於理解客戶行為、採取行動的傾向、風險因素以及複雜的組織、環境和商業行為,這導致了數據用例的變化。


Hadoop的商業價值最初出現於2009年,當年Cloudera發佈商業版本,MapR、Hortonworks和EMC Greenplum(如今的Pivotal HD)緊隨其後。儘管分析師們紛紛預測大數據是個價值500億美元以上的潛在市場,但作為分析工具,Hadoop最終在21世紀的前十年遭遇挑戰。


Hadoop在企業界遭遇的挑戰


儘管Hadoop在大型存儲、ETL(提取、轉換和加載)作業以及通過批處理支持機器學習任務等方面作用顯著,但對於企業和大型組織用於日常決策的、較為傳統的分析工作而言,它並非最佳選擇。比起Hadoop,Hive、Dremel和Spark等工具更適用於分析。並且Hadoop的運行速度不夠快,無法真正代替數據倉庫。


Hadoop還面臨著其他挑戰。在處理原本Hadoop旨在解決的存儲和管理難題時,NoSQL數據庫和對象存儲提供商取得了重大進展。而隨著時間的推移,無法實現業務連續性、缺乏靈活性,難以勝任實時分析、地理空間和其他新興分析用例等,這使得Hadoop的業務範圍難以從批量處理擴展到大量數據。


此外,隨著時間的推移,企業發現越來越多的大數據問題需要廣泛的數據來源,對數據模式、查詢和定義進行快速調整,以及反映新的應用程序、平臺和雲產業供應商使用情況的具體情境。為了解決這一難題,分析、集成和複製等操作必須更加敏捷和快速。許多供應商應運而生,包括:


· 分析解決方案提供商,如ClearStory Data,Domo,Incorta,Looker,Microsoft Power BI,Qlik,Sisense,Tableau和ThoughtSpot


· 數據信道供應商,如Alooma,Attunity,Alteryx,Fivetran和Matillion


· 數據集成供應商,包括Informatica,MuleSoft,SnapLogic,Talend和TIBCO(它們還通過Spotfire產品組合在分析領域相互競爭)


不論從收購還是資金的角度來看,這類公司似乎都成了萬眾矚目的焦點,這絕非巧合。最近的例子包括但不限於:

· ThoughtSpot於2018年5月D輪融資1.45億美元

· Sisense於2018年9月E輪融資8000萬美元

· Incorta於2018年10月B輪延期融資1500萬美元

· Fivetran於2018年12月A輪融資1500萬美元

· Looker於2018年12月E輪融資1.03億美元

· TIBCO於2018年12月收購Orchestra Networks

· LogiAnalytics於2019年2月收購Jinfonet

· Google於2019年2月收購Alooma

· Qlik於2019年2月收購Attunity

· Informatica於2019年2月收購AllSight

· TIBCO於2019年3月收購SnappyData

· Alteryx於2019年4月收購ClearStory Data

· Matillion於2019年6月C輪融資3500萬美元

· Google計劃於2019年6月收購Looker

· Salesforce計劃於2019年6月收購Tableau

· LogiAnalytics於2019年6月收購Zoomdata


這些公司的成功反映了社會需要分析師、數據和靈活的平臺,以提高在具體情境下來自不同雲端和來源的數據的分析價值。2019年,這類公司行為還會更多,因為其中一些公司要麼是私募股權所有,要麼已經獲得了大量風險投資,它們需要儘快退出,為未來的風險投資積蓄基金。

由Hadoop驅動的原始大數據時代已於2019年6月結束……

圖片來源:unsplash.com/@jontyson

隨著大數據時代的消亡,我們將進一步享受到多雲時代、機器學習時代以及實時和無處不在的上下文時代等大數據時代帶來的福利。


多雲時代更加需要跨多個雲支持現有的各種應用程序和平臺,更加需要持續服務和業務連續性。“已經有用於處理這個任務的應用程序”的心態使得企業中平均每個員工都有1個SaaS應用程序,這意味著每個大型企業都要支持數千個SaaS應用程序的數據和流量。後端容器化的發展導致存儲和工作負載環境趨向分散化和專業化,以支持按需和峰值使用環境。


機器學習時代的特徵是重視分析模型、算法、模型訓練、深度學習以及算法和深度學習技術的倫理。機器學習的大部分工作和以分析為目的的數據清洗工作相同,但還需要額外的數學、商業和道德研究來創造持久和長期的價值。


實時和無處不在的上下文時代更加需要從分析和參與的角度及時更新。從分析的角度來看,僅僅每週一次或每天一次更新公司分析處理結果已經無法滿足需求。如今員工需要近乎實時的更新,否則就有可能做出已經過時的決策。有效使用實時分析需要廣泛的業務數據以提供適當的具體情境,並基於數據和需求執行分析。無處不在性還要求交互,要求物聯網提供更多對環境和機械活動的邊緣觀察,同時也要求尚在發展中的擴展現實世界——包括增強和虛擬現實——為用戶提供身臨其境的情景。為了提供這種級別的交互,必須以短至300-500毫秒的交互速度分析數據,以提供有效的行為反饋。


隨著大數據時代的結束,可以更多地關注對大量數據進行處理、分析和實時交互的無數難題,而不是收集大量數據的方式。在邁入大數據驅動的新時代之前,請牢記以下幾個概念。


首先,Hadoop仍然在企業數據領域佔有一席之地。Amalgam Insights預測MapR最終將成為一家以管理BMC、CA或Micro Focus等IT軟件而聞名的公司,並且它認為Cloudera已採取措施改進Enterprise Hadoop以支持下一個數據時代。但技術的發展毫不留情,Cloudera的癥結在於它是否可以快速轉型。在將企業數據平臺發展為下一代研究和機器學習平臺方面,Cloudera面臨著數字轉型挑戰。過去幾十年來,公司一直能夠確定轉型的時間軸。如今,正如亞馬遜、Facebook和微軟那樣,成功的科技公司必須準備好每十年進行一次改革,甚至蠶食自己的一部分以保持活力。


其次,對多雲分析和數據可視化的需求比以往任何時候都大。谷歌和Salesforce前不久花費了180億美元用於收購Looker和Tableau,這些收購基本上是根據規模和收入增長情況進行的市價收購。還將有數十億美元將用於研究各種來源的數據的分析方案,並用於支持與多雲相關的日益分散和多樣化的存儲、計算和集成需求。這意味著企業需要戰略性地確定數據集成、數據建模、分析和/或機器學習/數據科學團隊將在多大程度上解決這些問題,因為異構數據的處理和分析變得越來越困難和複雜,而且仍須支持戰略業務需求並將數據用作真正的戰略優勢。


第三,機器學習和數據科學是下一代解析性分析,需要獨特的新型數據管理工作。大規模地創建測試數據、合成數據和掩蔽數據以及譜系、治理、參數和超參數定義以及算法使用需要超越傳統的大數據。最值得擔心的是,因為樣本量小、數據源不足、數據定義不清晰、數據情境不佳,或者算法和分類假設不準確等原因,使用不能勝任業務的數據。換句話說,不要使用謊言數據。謊言數據會導致偏頗、不合規、不準確的結果,並可能導致類似Nick Leeson在1995年毀掉Barings Bank,或Societe Generale由於Jerome Kerviel操縱交易產生70億美元交易損失的後果。AI現在是新的潛在“流氓交易者”,需要得到適當的監控、管理和支持。


第四,實時和無處不在的環境是對數據的挑戰,同時也是對協作和技術的挑戰。人們正在進入這樣一個世界,在這個世界裡,每個對象、過程和對話都可以通過附加的文本進行標記,加上字幕或擴充,並且可以實時處理數十億字節的數據,以產生一個“慢下來”或者“現在就買”這樣簡單的警報。Gong、Tact和Voicera等公司嘗試以數字方式記錄、分析並使用額外文本增強模擬對話,為工業界的PTC,GE以及其他產品生命週期和製造業、商業公司創建了“數字雙胞胎”的概念。


結論

總之,大數據時代已經結束。但在此過程中,大數據本身已成為IT的核心方面,並發展出一系列新的時代,每個時代都有光明的未來。投資大數據的公司應將這些投資視為未來實時、增強和互動參與公司的重要基礎。隨著大數據時代的結束,現在準備將整個大數據作為商業資產,而不僅僅是炒作,以支持基於工作的情境、機器學習和實時交互。


由Hadoop驅動的原始大數據時代已於2019年6月結束……

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

"

相關推薦

推薦中...