Hadoop還能輝煌多久——Hadoop2的數據管理實踐

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

Hadoop 2可以在Hadoop以前的批量處理範圍之內直接在堆棧本身內部實現更大範圍的數據處理任務

Hadoop,大數據分析的開源技術棧的功能最近有了更大的發展。

隨著2013年10月的Hadoop 2的一般可用性發布,開發人員現在可以在Hadoop以前的批處理範圍之內直接在堆棧本身內執行更多的數據處理任務。新版本還具有使其能夠在同一Hadoop集群上運行多個工作負載的明顯優勢。

根據IT市場研究公司Gartner的分析師Merv Adrian的說法,這些改進是堆疊的“重大進步”。他說,Hadoop 2為信息管理者提供了新的機會,並解決了以前版本中的缺點。

但他補充說,這將進一步使客戶的支持模式和供應商選擇複雜化。 對於那些在英國和歐洲,通貨膨脹滯後於美國一段距離的人,這就產生了一個困難的問題:Hadoop的世界現在是否超越了大數據野心?

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

首先,瞭解Hadoop如何為以前版本提供新的功能非常重要 - 最好的人物是Arun Murthy,他和Hadoop分銷商Hortonworks的創始人兼建築師一起,也領導開放源代碼開發和發佈 Apache Hadoop 2。

他說:“Hadoop 2並不是一個發行版本,”他堅持認為,這是一個第二代架構。“他補充說,區別很重要,因為將Hadoop移交到批處理以外的重新設計所需的量, 時間分析已經很大。

新版本,新功能

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

簡而言之,由Murthy領導的開放源碼開發團隊採用MapReduce,Hadoop的編程框架,用於處理大量服務器群集的大型數據集,並將其分為兩個功能區域:作業處理和資源管理。

在新版本中,MapReduce 2負責處理Hadoop堆棧中新層的作業處理,YARN(另一個資源協商者)負責處理資源管理。 這種重新配置意味著程序員可以在Hadoop中運行多個應用程序,包括用於批量處理數據的MapReduce,所有共享資源管理由YARN提供。

管理諮詢公司PA Consulting Group的數據科學專家Willem van Asperen表示,這將對程序員產生巨大的影響。他說:“舊的資源管理器被調整到批量工作:你確保所有的數據都可用,你運行這個工作並下載結果。”

“使用YARN,您有一個更加開放和靈活的應用程序編程界面。這意味著其他框架現在很容易使用資源管理層 - 而不僅僅是MapReduce的批處理,但是正在進行一系列在線和即時結果框架。它們在Hadoop之上運行,但是給用戶立即的響應對許多用例至關重要。”

或者,使用Arun Murthy使用的類比:Hadoop 1就像運行Microsoft Windows一樣僅運行記事本,Hadoop 2也可以讓您擁有Word,SharePoint,PowerPoint和Excel。

PA的van Asperen說,Hadoop分佈式文件系統(HDFS)的更改(也包括在Apache Hadoop 2中)提供了新的故障轉移功能,以提高堆棧的可用性。 “突然之間,Hadoop已經成為容錯,有彈性的在線大數據分析平臺,這是向前邁進的一大進步,”他說。

一個關於選擇的問題

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

那麼客戶可以選擇哪些應用程序或分析工作負載來加速Hadoop 2呢?

據Gartner的Merv Adrian介紹,運行在YARN之上的其他處理引擎可能來自第三方或Apache項目,但可能包括實時事件處理,圖形處理,搜索和文本索引以及內存中處理。

但是,隨著這個“帶來自己的Hadoop”生態系統的出現,他將擴大在大數據項目中使用Hadoop的可能性,同時也為用戶帶來了複雜性,並且需要新的架構和供應商管理思維。“

簡而言之,用戶可以選擇兩種可能的方案:運行Hadoop集群中單個供應商的組件,以執行不同的分析工作負載,或運行多個供應商的組件。

第一種情況具有組件之間緊密集成和支持單一聯繫點的優點,但具有供應商鎖定的明顯風險。 這可能是一個問題,如果一個供應商沒有提供業務需求的應用程序或分析深度,他說。

第二種情況同時引入了幾個不同的問題:應用程序與Hadoop平臺的集成可能相對容易克服,因為Apache供應商的代碼庫可以通過其開源模式公開提供,但處理多個供應商可能會增加開發 和部署時間,並增加培訓開銷。

無論哪種方式,這些可能不是歐洲組織準備與之搏鬥的問題。 在過去兩年中,主要的Hadoop分銷商僅在該地區開設了辦事處,而2013年7月由大數據集成專家Syncsort出版的歐洲範圍的調查顯示,64%的人正在嘗試使用Hadoop或一直在使用它 一年以上,假設受訪者來自具有比大多數數據更為複雜的大數據的組織的受訪者可能是明智之舉。 該調查承認,該地區的Hadoop採用,“比衝刺更多的馬拉松”。

也許是一個更大的問題是,在為馬拉松做準備時,他們的“訓練計劃”在何種程度上考慮到了Hadoop 2的所有技術變化和新的部署考慮因素?

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

對於本文,有四個Hadoop經銷商 - Cloudera,Hortonworks,MapR(根據Syncsort的調查顯示,歐洲三大領先供應商)以及WANdisco被要求提供歐洲已經使用Hadoop 2的客戶的詳細信息。他們無法做到所以,但是在公平的情況下,這可能更多地反映了客戶公開談判的意願,而不是實際使用或實驗更新版本。

但根據歐洲,中東和非洲在管理諮詢業務畢馬威(KPMG)的數據和數據分析負責人Eddie Short,許多公司仍在與Hadoop 1搏鬥。

“美國在這個旅程上遙遙領先。包括歐洲在內的世界其他地方還有很長的路要走。他們已經在努力掌握Hadoop 1中已經存在的內容,所以我不知道Hadoop 2在這裡有很大的影響,“他說。

他說,在與他定期會面的客戶中,Hadoop的技能仍然不足,而且價格仍然很高,而且大部分都沒有超出試點部署的模式。

但是,正如Hortonworks的Arun Murthy所指出的那樣,“不同的組織想用數據做不同的事情”,Hadoop 2做得更好。

例如,信用卡公司可能希望使用Apache Storm進行流處理,以查找信用卡使用中的模式和異常情況,以便實時檢測欺詐;它可能希望使用Apache TEZ來運行交互式SQL查詢,以查看使用克隆信用卡的位置;並且仍然可以使用批處理來識別所有客戶和卡片上的更廣泛的圖案。

“通過YARN,他們可以在一個平臺上完成所有操作,而不需要獨立的Hadoop系統,這些系統都需要分開管理和監控,”Murthy說。

Hadoop還能輝煌多久——Hadoop2的數據管理實踐

Murthy承認,YARN友好的應用程序的商業可用性也將成為用戶採用的一個因素,但一個活躍的生態系統已經在建設中。例如,Apache Giraph圖形處理應用程序。它已被複雜的Hadoop用戶(如Facebook和LinkedIn)使用,以顯示填充其社交網絡平臺的個人之間的聯繫,以顯示“誰知道誰”。

他重複說,YARN不僅僅是Hadoop的一個新組件。這是一個數據中心操作系統。“需要大量的開發工作來增加其功能,但是我們在這裡提供的Hadoop 2對於Hadoop來說更好,對於生態系統更好,對企業客戶更好。

相關推薦

推薦中...