hadoop入門指南（Hello Hadoop）

Hadoop HDFS MapReduce Storm Java開發之路 2017-05-20

Hadoop百度百科

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。

Hadoop其實只是一種數據處理的框架，具體去處理什麼問題，不是平臺本身決定的。hadoop的出現時源於現實中存儲和需要分析的數據的激增，最終要解決什麼問題是看使用者要解決什麼問題。

用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集群的威力進行高速運算和存儲。

Hadoop實現了一個分佈式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。

Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

基礎知識

如今是大數據時代，而且學習大數據都會先學習Hadoop，因為它是目前世界上最流行的分佈式數據處理框架。

Hadoop的核心是YARN,HDFS,Mapreduce,常用模塊架構如下

hadoop入門指南（Hello Hadoop）

HDFS

HDFS是一個分佈式文件系統，在HDFS上寫文件的過程與我們平時使用的單機文件系統非常不同，從宏觀上來看，在HDFS文件系統上創建並寫一個文件，流程如下圖（來自《Hadoop：The Definitive Guide》一書）所示：

hadoop入門指南（Hello Hadoop）

具體過程描述如下：

Client調用DistributedFileSystem對象的create方法，創建一個文件輸出流（FSDataOutputStream）對象
通過DistributedFileSystem對象與Hadoop集群的NameNode進行一次RPC遠程調用，在HDFS的Namespace中創建一個文件條目（Entry），該條目沒有任何的Block
通過FSDataOutputStream對象，向DataNode寫入數據，數據首先被寫入FSDataOutputStream對象內部的Buffer中，然後數據被分割成一個個Packet數據包
以Packet最小單位，基於Socket連接發送到按特定算法選擇的HDFS集群中一組DataNode（正常是3個，可能大於等於1）中的一個節點上，在這組DataNode組成的Pipeline上依次傳輸Packet
這組DataNode組成的Pipeline反方向上，發送ack，最終由Pipeline中第一個DataNode節點將Pipeline ack發送給Client
完成向文件寫入數據，Client在文件輸出流（FSDataOutputStream）對象上調用close方法，關閉流
調用DistributedFileSystem對象的complete方法，通知NameNode文件寫入成功

Mapreduce

源自於谷歌的MapReduce論文，用以進行大數據量的計算，它屏蔽了分佈式計算框架細節，將計算抽象成map和reduce兩部分。

HBASE(分佈式列存數據庫)

源自谷歌的Bigtable論文，是一個建立在HDFS之上，面向列的針對結構化的數據可伸縮，高可靠，高性能分佈式和麵向列的動態模式數據庫

zookeeper

解決分佈式環境下數據管理問題，統一命名，狀態同步，集群管理，配置同步等

yarn分佈式資源管理器

Apache Hadoop YARN （Yet Another Resource Negotiator，另一種資源協調者）是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。

hadoop入門指南（Hello Hadoop）

YARN最初是為了修復MapReduce實現裡的明顯不足，並對可伸縮性（支持一萬個節點和二十萬個內核的集群）、可靠性和集群利用率進行了提升。YARN實現這些需求的方式是，把Job Tracker的兩個主要功能（資源管理和作業調度/監控）分成了兩個獨立的服務程序——全局的資源管理（RM）和針對每個應用的應用 Master（AM），這樣一個應用要麼是傳統意義上的MapReduce任務，要麼是任務的有向無環圖（DAG）。

YARN從某種那個意義上來說應該算做是一個雲操作系統，它負責集群的資源管理。在操作系統之上可以開發各類的應用程序，例如批處理MapReduce、流式作業Storm以及實時型服務Storm等。這些應用可以同時利用Hadoop集群的計算能力和豐富的數據存儲模型，共享同一個Hadoop 集群和駐留在集群上的數據。此外，這些新的框架還可以利用YARN的資源管理器，提供新的應用管理器實現。

YARN的核心思想將JobTracker和TaskTacker進行分離，它由下面幾大構成組件：

a. 一個全局的資源管理器 ResourceManager

b. ResourceManager的每個節點代理 NodeManager

c. 表示每個應用的 ApplicationMaster

d. 每一個ApplicationMaster擁有多個Container在NodeManager上運行

hadoop入門指南（Hello Hadoop）

YARN的組成

相關推薦

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'「大數據分析」學習大數據分析要什麼基礎，零基礎入門ok嗎？'

"身處21世紀的今天，數據分析行業急劇發展，越來越多的企業已經意識到大數據分析的重要性和發展潛力，同時越來越多的傳統行業公司開始轉型升級，開始引入並發展專屬自己的大數據分析部門及崗位。由此也滋生了越來越多的人想進入大數據領域——或許你是即將畢業的大學生，基於自己的文科背景擔...

大數據數據庫 Hadoop 機器學習編程語言 Linux 技術 Spark Windows SQL 虛擬機人生第一份工作 Java 電腦算法分佈式計算 CentOS 軟件 Ubuntu 大學 HDFS 2019-09-08

'小白入門Python必讀，花7天整理最詳細的面向對象案例，超讚'

"Python作為人工智能首選編程語言，也是最近大家知道比較火的編程語言，Python從設計之初就已經是一門面向對象的語言，正因為如此，在Python中創建一個類和對象是很容易的。下面有大牛級別程序員帶小白入門Python，花7天整理最全面向對象教程！供參考學習！在文末小編...

Python 面向對象程序編程數據庫 Linux 編程語言 SQL NoSQL 設計 HTML 程序員人工智能泛函編程 HDFS MongoDB 設計模式 jQuery HTML5 CSS 程序設計 MySQL 人生第一份工作 Nginx 2019-09-03

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

'想做程序員？看了這五種編程入門方法，學習和玩耍一樣'

"程序員要精通一門語言，還是要掌握多門語言?對於這個問題，公說公有理，婆說婆有理。技術更新太快，精通一門編程語言已經實屬不易，又怎麼好意思說精通多門語言呢?不過呢，當你精通一門語言同時，涉獵一下其他語言無傷大雅。這對於編程思想也是大有裨益的。每門設計語言都有其獨特的設計思想...

程序員 Python 技術 Django 工程師 jQuery Java Flash 網絡爬蟲人工智能數據庫 JavaScript 算法 Spark Smalltalk HTML 設計模式數據挖掘 Perl Linux 深度學習設計大數據分佈式計算 Storm MapReduce Scrapy 算術 JSP 編程語言 CSS Hadoop Nginx 電子商務 HBase Ruby 2019-08-29

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'推薦！12本看完讓你大呼過癮的大數據入門必讀經典'

"本書單是鑑於本人多年浸淫大數據領域的經驗，按照學習大數據的階段和技術所列的書單，適合剛剛接觸大數據領域的新人。話不多說，直接上書單！第一階段：大數據基礎語言的學習Java語言基礎：Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字...

大數據數據庫 Java Hadoop 推薦技術算法 Spark Hive 人工智能 Storm 技術 R語言 Python JavaScript Linux 編程語言分佈式計算程序員 Eclipse WebApp HTML Scala 跳槽那些事兒 CSS SQL Redis Apache jQuery HTML5 HBase 需求分析 2019-08-22

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'大數據入門的五大核心技術'

"21世紀，世界已經進入數據大爆炸的時代，大數據時代已經來臨。從商業公司內部的各種管理和運營數據，到個人移動終端與消費電子產品的社會化數據，再到互聯網產生的海量信息數據等，每天世界上產生的信息量正在飛速增長。2009年數據信息量達到8 000億GB，而到2011年達到1.8...

大數據技術 Google文檔 Google GFS 雲計算數據庫 SQL 電腦軟件信息檢索 Hadoop BigTable 網絡遊戲 Velocity MapReduce 人生第一份工作 2019-08-16

'大數據公司MapR被惠普企業收購，看重竟然不是Hadoop能力'

"本文作者│劉學習Fiyinghare傳言成真！大數據軟件公司MapR難以為繼，被惠普企業HPE收購。8月6日，惠普企業HPE宣佈將收購大數據基礎軟件企業、Hadoop 技術三大巨頭之一的MapR Technologies的資產。HPE表示，這次收購包括MapR的技術、知識...

Hadoop 大數據技術惠普618一戰到底 Cloudera 人工智能軟件人生第一份工作知識產權 Hortonworks Apache 2019-08-14

'由Hadoop驅動的原始大數據時代已於2019年6月結束……'

"全文共3946字，預計學習時長8分鐘圖片來源：unsplash.com/@ev隨著當下的重點從收集數據轉向實時處理數據，大數據時代正走向消亡。如今大數據是種商業資產，為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。原始大數據時代終結於2019年6月5日，這一天，湯姆...

Hadoop 大數據數據庫 Cloudera Hortonworks 機器學習技術 Google NoSQL EMC Hive Apache Spark 2019-08-13

'HPE收購MapR，以Hadoop供應商為首的大數據時代落幕'

"Hadoop三駕馬車之一的MapR陷入困境後終於有了著落，今年5月底MapR宣佈由於“業績極差”將被迫關閉公司，MapR給自己設定尋找資金的最後期限是7月3日，一個月後MapR被HPE收購。8月5日，HPE宣佈收購MapR的業務資產，收購金額未透露。本次交易包括MapR的...

Hadoop 大數據惠普公司人工智能技術跳槽那些事兒雲計算軟件 Docker 人生第一份工作 Cloudera 知識產權高德納集團 2019-08-12

'零基礎Hadoop學習之路你必須要知道的一些知識點'

"零基礎學Hadoop你必須要知道的一些知識點，在學習編程的路上，都沒有那麼容易的事情，畢竟成為一個優秀的程序員沒有數年之功，是很難成功的。章目錄:一、理論知識1.Hadoop的整體印象2.Hadoop的優勢3.Hadoop可以做什麼4.Hadoop結構4.1 Hadoop...

Hadoop HDFS MapReduce 軟件 Lucene 程序員 Linux Java MySQL 大數據 Spark Apache 分佈式計算數據庫電腦機器學習酷狗音樂搜索引擎設計 2019-08-08

'SparkSQL極簡入門'

"Spark為結構化數據處理引入了一個稱為Spark SQL的編程模塊。它提供了一個稱為DataFrame（數據框）的編程抽象，DF的底層仍然是RDD，並且可以充當分佈式SQL查詢引擎。1、SparkSQL的由來SparkSQL的前身是Shark。在Hadoop發展過程中，...

Spark SQL Hadoop MapReduce Java虛擬機軟件大數據數據庫 Hive 中央處理器技術 Cloudera HBase MongoDB 2019-07-30

'Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式'

"Spark 大數據處理框架簡介Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架。Spark，擁有Had...

Spark 大數據 Hadoop HDFS Amazon EC2 Storm 機器學習 MapReduce 設計 HBase Hive 數據挖掘軟件技術 SQL 加州大學伯克利分校 Cassandra Java 亞馬遜公司 UC瀏覽器算法 Python 2019-07-29

'大數據與Hadoop有什麼關係？大數據Hadoop入門簡介'

"學習著數據科學與大數據技術專業（簡稱大數據）的我們，對於“大數據”這個詞是再熟悉不過了，而每當我們越去了解大數據就越發現有個詞也會一直被提及那就是——Hadoop那Hadoop與大數據有什麼關係呢？所謂大數據，就是從各種類型的數據中，快速獲得有價值信息的能力。大數據是需要...

Hadoop 大數據 HDFS HBase 技術數據庫 Apache Hive MapReduce SQL Java Linux 分佈式計算軟件 Storm Python 編譯器人工智能 Scala Spark MySQL 硬件 2019-07-27

推薦中...