Hadoop架構介紹
Hadoop是Apache軟件基金會旗下的一個開源分佈式計算平臺。是Apache下的一個項目,由HDFS、MapReduce、HBase、Hive和ZooKeeper等成員組成。其中,HDFS和MapReduce是兩個最基礎最重要的成員Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System[3](HDFS),它存儲 Hadoop 集群中所有存儲節點上的文件。HDFS(對於本文)的上一層是MapReduce引擎,該引擎由 JobTrackers 和 TaskTrackers 組成
hadoop兩部分組成
1、分佈式文件系統( HDFS Hadoop distributed FileSystem)
2、MapReduce
hadoop兩大類角色:
1、master 主服務器
2、salve 子服務器
1、分佈式文件系統
1、NameNode 作為主服務器,管理文件系統的命名空間和客戶端對文件系統的訪問操作(CRUD) 統計數據需要多大的空間,多少個DataNode塊,進行存儲數據
2、DataNode 管理存儲的數據 數據真正儲存的節點內容、或者物理地址 存儲(blockID-塊地址,data-數據) hadoop啟動時會將dataNode節點的數據主動上傳到NameNode空間中,讓所有的數據都讓nameNode維護起來,DataNode與NameNode保持心跳(實時通信)實現數據共享、
3、MapReduce 分佈式計算和任務處理 JobTrackers 和 TaskTrackers 組成 1、Map 接受數據並且將數據抓換成key \ value形式保存
4、Reduce 對Map進行邏輯處理 排序 、 計算、處理的邏輯處理