Hadoop輝煌還能延續多久——Hadoop 2.0版本出現

Hadoop 大數據 軟件 HDFS ITStar ITStar 2017-08-29

Hadoop輝煌還能延續多久——Hadoop 2.0版本出現

Hadoop正在尋找用作批量處理引擎和大型數據登陸墊。 2.0版本預示著更廣泛的應用,但同時也預示著新用戶面臨挑戰。

Hadoop分佈式處理框架為IT,數據管理和分析團隊提供了處理,存儲和使用數據的新機會,特別是在大數據應用中。但它們也面臨新的挑戰,因為他們希望部署和使用Hadoop系統。而且由於Hadoop及其周邊的大量開源技術正在迅速發展,所以組織必須準備好頻繁更新和更改——最新的形式就是新建的Hadoop 2版本。

Apache Software Foundation於10月15日通常提供的Hadoop 2將最終將框架遠遠超出目前的核心配置,將Hadoop分佈式文件系統(HDFS)與基於Java的MapReduce程序相結合。早期採用者公司正在使用該配對來幫助他們處理大量的交易數據以及各種類型的非結構化和半結構化數據,包括服務器和網絡日誌文件,傳感器數據,社交媒體Feed,文本文檔和圖像文件。

Hadoop輝煌還能延續多久——Hadoop 2.0版本出現

Hadoop通常在商品服務器的群集上運行,導致相對較低的數據處理和存儲成本。由於其具有非常輕的結構的數據處理能力,Hadoop應用程序可以利用不適合傳統數據庫的新信息源,“San Mateo Ventana Research副總裁兼研究總監Tony Cosentino表示,加利福尼亞州。

但是Cosentino補充說,現有Hadoop架構的實現受到批處理方向的限制,這使得它更像一輛卡車,而不是跑車。他說:“Hadoop是時間延遲不成問題,需要處理大量數據的理想選擇。”

數據網格供應商ScaleOut Software Inc.的首席執行官William Bain表示:“在其HDFS-MapReduce配置中,”Hadoop非常適用於分析非常大的靜態非結構化數據集,其中包含多達TB或甚至PB級信息。“例如,他引用了一個情緒分析應用程序“大量的Twitter數據”,目的在於辨別客戶對於某個公司或其產品的想法和推論。

貝恩強調,由於其批處理性質和處理工作的“大起動開銷”,Hadoop通常對實時數據集的實時分析並不有用,儘管這可能會改變, Hadoop 2和最近由一些供應商引入的新查詢引擎,希望支持Hadoop數據的臨時分析。

數據倉庫門為Hadoop打開

Hadoop輝煌還能延續多久——Hadoop 2.0版本出現

根據加州Los Gatos的Impetus Technologies Inc.軟件開發服務提供商的首席架構師Sanjay Sharma的說法,涉及大量數據的數據倉庫應用Hadoop是目前最好的選擇。它有所不同,他說:“數十兆字節是Hadoop的最佳點,但是如果非結構化數據有很大的複雜性,那麼可能是幾十GB。”

一些用戶,如汽車購物信息提供商Edmunds.com Inc.已經部署了Hadoop及相關技術來取代傳統的數據倉庫。但是Hadoop集群通常被定位為登陸墊和分段區域,用於數據湧入組織。在這種情況下,可以通過MapReduce減少數據,將其轉換成關係結構或彙總在一個關係結構中,並轉移到企業數據倉庫或數據集市,供業務用戶和分析專業人員進行分析。這種方法還提供了更大的靈活性:原始數據可以保存在Hadoop系統中,並根據需要進行建模,以便使用提取,加載和轉換過程進行分析。

Sharma描述了這樣的實現,例如“下游處理的數據湖”。亞歷山大諮詢公司BI Research總裁Colin White使用“煉油廠”一詞。在2013年2月發佈的一份報告中,Gartner Inc.分析師Mark Beyer和Ted Friedman寫道,使用Hadoop收集和準備數據在數據倉庫中進行分析的數據是在大型數據分析應用程序中支持大數據分析應用程序的最受歡迎的策略研究諮詢公司。 272名受訪者中甚至有50%表示,他們的組織計劃在未來12個月內這樣做。

圍繞Hadoop的開源生態系統的活力幾乎不能誇大。

從最早開始,Hadoop吸引了軟件開發人員,希望創建附加工具來填補其功能的差距。例如,分佈式數據庫,SQL風格數據倉庫和用於在MapReduce中開發數據分析程序的高級語言分別有HBase,Hive和Pig。已經成為Hadoop子項目或Apache項目的其他支持參與者包括Ambari,用於配置,管理和監視Hadoop集群; Cassandra,NoSQL數據庫;和ZooKeeper,它維護配置數據並跨群集同步分佈式操作。

YARN在Hadoop 2中變得更加靈活了

Hadoop輝煌還能延續多久——Hadoop 2.0版本出現

而現在Hadoop 2——最初被稱為Hadoop 2.0正在進入藍圖之中。這其中更新的核心的部分是YARN——一個多次修復過的資源管理器,使MapReduce以外的應用程序能夠與HDFS一起工作。通過這種方式,YARN(對另一個資源談判者來說是一個很好的縮寫),旨在使Hadoop免受批處理的依賴,同時仍然提供與現有應用程序編程接口的向後兼容性。

Cosentino說:“YARN是Hadoop 2.0的主要特徵,”他補充說。不是讓MapReduce工作看到自己是“HDFS唯一的租戶”,它允許多個工作負載同時運行。一個早期來自雅虎的例子,它已經在YARN上實施了Storm複雜事件處理軟件,以幫助將關於網站用戶的活動的數據彙總到Hadoop集群中。

Hadoop 2還可以通過新功能實現高可用性改進,使用戶能夠在HDFS中創建聯合名稱(或主)節點體系結構,而不是依靠單個節點來控制整個集群。 此外,它增加了在Windows上運行Hadoop的支持。 同時,商業供應商正在醞釀其他管理工具酏劑 - 例如新的作業調度程序和集群配置軟件,以進一步提升Hadoop的企業準備。

相關推薦

推薦中...