Hadoop是什麼?你瞭解嗎

Hadoop HDFS MapReduce 雲計算 猿先生大數據 猿先生大數據 2017-10-04

大數據已經滲透到各行各業,不管是金融,交通,電商,政府都,都在推行大數據,但是很多天天提大數據,尤其是對於剛學習大數據或者即將學習大數據的,肯定還對hadoop是什麼比較模糊,今天給大家總結一下什麼是hadoop


Hadoop是什麼?你瞭解嗎

一、Hadoop介紹

Hadoop是Apache軟件基金會旗下的一個開源分佈式計算平臺。以Hadoop分佈式文件系統(Hadoop Distributed File System,HDFS)和(Google MapReduce的開源實現)為核心的Hadoop為用戶提供了系統底層細節透明的分佈式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉(low-cost)的硬件上,形成分佈式系統;MapReduce分佈式編程模型允許用戶在不瞭解分佈式系統底層細節的情況下併發並行應用程序。所以用戶可以利用集群的Hadoop輕鬆地組織計算機資源,從而搭建自己的分佈式計算平臺,並且可以充分利用集群的計算和存儲能力,完成海量數據的處理。

Hadoop是一個開源框架,可編寫和運行分佈式應用處理大規模數據。分佈式計算是一個寬泛並且不斷變化的領域。

二、Hadoop的優勢

1) 方便:Hadoop運行在由一般商用機器構成的大型集群上,或者雲計算服務上,比如EC2。

2) 健壯:Hadoop致力於在一般商用硬件上運行,其架構假設硬件會頻繁失效,Hadoop可以從容地處理大多數此類故障。

3) 可擴展:Hadoop通過增加集群節點,可以線性地擴展以處理更大的數據集。

4) 簡單:Hadoop允許用戶快速編寫高效的並行代碼。

三、依賴工具

目前有很多工具能夠讓Hadoop更容易使用,例如Hive,可以將查詢語句轉換成MapReduce任務。但是MapReduce的複雜性和侷限性(單任務批處理)使得Hadoop在更多情況下都被作為數據倉庫使用而非數據分析工具

四、總結

Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分佈式文件系統,MapReduce 是分佈式數據處理模型和執行環境。掌握了這兩部分,也就掌握了Hadoop最核心的東西。

相關推薦

推薦中...