Storm之Zookeeper的應用原理

Storm Hadoop MapReduce 技術蒼茫漂漂 2017-04-05

上文說到，zookeeper是nimbus和supervisor把裡面讀寫一些原數據信息的，具體會寫什麼信息呢，存儲心跳，會把心跳寫上去，具體讀取心跳信息的人再去zookeeper上面去讀取信息，第二塊兒呢，調度信息，錯誤信息，當task執行錯誤的時候呢，把錯誤的信息寫到zookeeper上去，這樣的話，在webUI上我們就可以讀取這些信息，把情況給展示出來。

實際上呢，Storm用zookeeper呢，使用的非常簡單，它就把它當做一個高可用的KV來使用，storm使用zookeeper呢需求非常簡單，就是說讓整個集群別變成無狀態的，就是任何節點掛了呢，受影響都不大，包括nimbus這種master進程掛掉的話，整個集群都還是能工作的，它要做到這一點呢就需要把狀態信息元數據都存儲到一個KV裡面去，存儲到一個系統裡面去，最簡單的就是一個KV就解決了，之所以選用zookeeper呢，是因為它是一個分佈式的，高可用的小KV的一個系統，它裡面一般是3個或者5個機器，當它的機器壞掉的數目不超過一半的時候呢，zookeeper還是可用的，所以zookeeper在這裡起到了一個高可用的作用，比如說我們一般部署5臺機器，在宕掉一臺或者兩臺機器的時候呢，都能正常使用，都沒有問題。

storm用zookeeper呢，和其它的master/slave的技術使用zookeeper呢還是有點不一樣，比如hadoop他是一個典型的master/slave架構，但是在hadoop裡面呢，所有的salve都會向master去彙報狀態，比如mapreduce裡面的tracker都會向jobtracker彙報，這樣呢在jobtracker裡面的內存呢就會有所有tracker的狀態，同時在tracker向jobtracker彙報心跳的時候呢，jobtracker會在迴應裡面呢，帶上你要執行的task，tracker你要執行什麼task這樣的信息，hadoop這種方式的好處是比較直接，slave向master彙報心跳，master給slave一些指令，很簡單很清晰，storm之所以不採用這種架構是因為這種需要保證更好更高的可用性，因為如果宕機會有延遲，流式計算裡面對延遲接受度是比較低的，因為業務如果延遲10分鐘什麼的話，影響是很大的，storm就是要保證當任何掛掉的時候，業務可以穩定運行，所以它需要各個進程都是無狀態的。

比如nimbus，如果各個節點都向它彙報，如果nimbus一旦掛了，那就存在這些個狀態信息怎麼恢復的問題，各個節點連不上的時候，怎麼處理的問題，所以storm它的做法是各個節點都把狀態信息往zk上寫，因為zk我們認為是可靠地，這樣比如說如果nimbus掛了，那再新起一個nimbus，它去zk上面去取Supervisor的信息，它就可以立刻知道supervisor處於一個什麼狀態，supervisor也一樣，它不需要與nimbus通信，它的心跳是往，而它啟動task的時候呢，也不是從nimbus上面要task，而是 nimbus把Task放到zookeeper上面去，然後supervisor再去zk上面去讀，然後讀到task之後呢再去啟動task，所以相互之間通過zk做了一個解耦，zk又是高可用的，非常好的，又是集群的方式，達到了一個非常高的穩定性，這個從架構上來講的話呢，比hadoop的架構要更先進一些了。

那我們下面再來看看storm使用zk的時候都往zk裡面寫了一些什麼樣的東西。

Storm之Zookeeper的應用原理

1./storm/supervisors/supervisor-id

首先最基本的每個supervisor的信息它要寫進去吧，因為它要知道整個集群的狀態，還要寫一些topology的信息，name，id，狀態的信息，這個地方可能有些奇怪了，這裡為什麼叫storm-id而不叫topologyid？？？

2./storm/storms/storm-id

實際上這個地方就應該叫topology-id，只不過在storm最早開發的時候呢，它每一個topology不叫topology，叫一個storm，但是對外文檔都叫做了topology，內部的調用什麼沒改，還是沿用之前的，所以這裡看到的還是storm-id，這裡storms其實就是storm，storm-id是topology-id，所以大家以後要是深入到storm代碼裡面去的時候，有些storm-id的地方其實就是topology-id的意思，並不是兩個不一樣的東西，就是同一個東西。

3./storm/assignments/storm-id

當topolgy提交到集群裡面去之後呢，nimbus會對它進行調度，當然nimbus會把調度信息寫入到zookeeper裡面去，包括topology分配了多少個worker啊，每個worker有個id號啊，worker分配到哪些機器啊，等等這些信息。

4./storm/workerbeats/storm-id/node-port

那這些worker啟動來之後呢，它也需要把這些心跳信息寫到集群裡面去，方便後面去監控，每個worker它會把信息寫到對應的文件上面去，命名是node加port的形式，node就是supervisor的ID，port就是這個worker對應的port，因為不同的supervisor上對應的port一定也是唯一的，因為port是他們數據交換的端口，所以說這個地方node加port是可以保證唯一性的。

5./storm/errors/storm-id/component-id

最後一部分是錯誤信息，就是Spout和Bolt產生的錯誤會寫到zookeeper上面去，方便分析問題，這個error信息寫到zookeeper裡面的時候，這裡說明一下，它有個策略，就是每個component就是Spout或者Bolt，它最多寫最近的20條，這樣就防止往zk裡面存儲過多的數據，導致壓力太大，因為zk不適合存儲過多的數據，那你要是想看歷史的數據呢，那再storm的日誌裡面有，再去Storm的日誌裡面翻。

本人熱愛技術，喜歡交流學習，有什麼前瞻新技術大家一起加群（Q）：131322610 溝通學習

相關推薦

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'Zookeeper工作原理詳解'

"ZooKeeper 是一個分佈式的，開放源碼的分佈式應用程序協調服務，它包含一個簡單的原語集，分佈式應用程序可以基於它實現同步服務，配置維護和命名服務等。 Zookeeper是hadoop的一個子項目，其發展歷程無需贅述。在分佈式應用中，由於工程師不能很好地使用鎖機制，以...

算法 BASIC語言人生第一份工作 Sync Hadoop 設計工程師 2019-09-12

'Emotiva（洛曼之聲） RMC-1十六通道環繞聲處理器 XPA-7 Gen3、XPA-11 Gen3多聲道功率放大器測評'

"最近，我收到一套重量級的AV功放，分別是Emotiva（洛曼之聲）RMC-1環繞聲處理器和兩臺XPA Gen3多聲道功率放大器。整套功放由兩個大航空箱子包裝發貨過來，僅僅是兩臺多聲道功放就重達將近50公斤！要把它們一一從航空箱裡面取出，然後搬到機櫃上面需要花費不少的力氣。...

DTS 音箱設計耳機軟件電腦 Storm 天花 2019-09-07

'Presto實現原理'

"Facebook的數據倉庫存儲在少量大型Hadoop/HDFS集群。Hive是Facebook在幾年前專為Hadoop打造的一款數據倉庫工具。在以前，Facebook的科學家和分析師一直依靠Hive來做數據分析。但Hive使用MapReduce作為底層計算框架，是專為批處...

Presto Facebook Hadoop SQL HDFS Hive 並行計算 MapReduce 數據結構物理設計 2019-09-07

'關於併發框架 Java原生線程池原理及Guava與之的補充'

"使用Java中成型的框架來幫助我們開發併發應用即可以節省構建項目的時間，也可以提高應用的性能。 Java對象實例的鎖一共有四種狀態：無鎖，偏向鎖，輕量鎖和重量鎖。原始脫離框架的併發應用大部分都需要手動完成加鎖釋放，最直接的就是使用synchronized和volatile...

Java 中央處理器算法操作系統 Linux 硬件 MapReduce Java虛擬機 2019-09-03

'數字化轉型之解決方案篇 | 基於 QingStor®️ 對象存儲的數據湖解決方案'

"據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。面對數字化轉型的時代浪潮，青小云為大家準備了一份硬核大禮 —— 《數字化轉型之路》，包含基礎設施、業務架構、解決方案到行業實踐、未來探索五個...

大數據技術經濟人工智能金融 Hadoop 固態硬盤青雲雲存儲人生第一份工作工程師 SQL 2019-08-31

'在線支付之風控系統架構選型'

"來源 InfoQ作者康大強一、風險的構成和分類在線支付的風險主要如下：一個完整的支付風控體系應該包括風險識別、風險分析、風險控制、風險治理、案件管理等模塊，風險控制可區分為事前、事中、事後控制，利用實時計算技術，加上特定的風險識別規則或模型，可很好的做到風險的事前和事中...

移動支付 Storm HBase SQL 技術 IBM 數據庫算法 Spark Redis 2019-08-29

'新人必須瞭解的大數據應用17個知識點彙總'

"一、大數據中的數據倉庫和Mpp數據庫如何選型?在Hadoop平臺中，一般大家都把hive當做數據倉庫的一種選擇，而Mpp數據庫的典型代表就是impala，presto。Mpp架構的數據庫主要用於即席查詢場景，暨對數據查詢效率有較高要求的場景，而對數據倉庫的查詢效率要求無法...

大數據數據庫 Hadoop 技術 HBase 算法 Spark MySQL Hive 硬件中央處理器軟件虛擬機中標麒麟 Presto HDFS 人工智能 Storm Redis MapReduce 2019-08-29

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'Spark Streaming 場景應用'

"作者：徐勝國來源：數盟Spark Streaming 是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合我們的應用場景，介結我們在使用 Spark Streaming 方面的技術架構，並著重講解 Spark Streami...

Spark HDFS Apache 數據庫 Hadoop 技術分佈式計算 MongoDB 機器學習 ElasticSearch Twitter MySQL Storm 2019-08-14

'華碩“敗家之眼”不敗家了！ROG遊戲手機加入3000價位大戰'

"7月23日，華碩旗下品牌“ROG玩家國度”（下文簡稱：ROG）在京召開新牌發佈會，期間發佈了PC遊戲、主機遊戲和手機遊戲在內的多款產品。值得注意的是，此次發佈會的“重頭戲”，ROG遊戲手機2推出了經典版、至尊版、電競裝甲版和騰訊遊戲定製精英版四個版本，售價分別為5999元...

ROG玩家國度華碩電腦騰訊遊戲硬件 GPU 電子競技騰訊高通技術設計 Storm 運營商吳丹天涯明月刀中央處理器 Wi-Fi 京東商城王者聯盟 2019-07-27

'中國軟件行業協會聯合千鋒教育將舉辦互聯網應用技術高級師資培訓'

"為了進一步推動高等院校新工科專業的相關教學工作，滿足社會對高等級IT應用開發人才的迫切需求，培養具備前沿IT知識的師資力量，提高高校教師教育教學改革與創新的業務水平和能力。中國軟件行業協會培訓中心攜手千鋒教育將於2019年7月25日至30日在北京紅櫨山莊舉辦新一代互聯網應...

技術軟件大數據物聯網人工智能大學 Hadoop 寧夏大學南昌大學青島跳槽那些事兒 2019-07-24

'為什麼這麼多人說學大數據之前先學Java？'

"Java和大數據是眼下最火爆的編程語言了，在這個iOS，Android相繼沒落；PHP相繼飽和的時候，只有Java大數據能夠保持著旺盛的需求。大數據時代，不僅給想從事IT的人帶來了新的發展機會，也提供了新的職業發展通道。特別是近期世界人工智能大會的舉行，更是讓人工智能、大...

Java 大數據 Hadoop 編程語言技術人工智能 Spark 人生第一份工作 PHP Python 雲計算程序員 Android 設計工程師 iOS Apache 2019-07-20

一文詳解Spark基本架構原理

Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架，最初在2009年由加州大學伯克利分校的AMPLab開發，並於2010年成為A...

Spark Hadoop Apache 大數據 MapReduce HDFS Hive SQL 算法技術分佈式計算機器學習 Storm Java虛擬機加州大學伯克利分校電腦 2019-07-13

面試官：只用Dubbo不行嗎？為啥還要有Zookeeper?

介紹微服務是最近比較火的概念，而微服務框架目前主流的有Dubbo和Spring Cloud，兩者都是為了解決微服務遇到的各種問題而產生的，即遇到的問題是一...

Storm Java GitHub 算法 Redis 2019-07-13

大數據學習之Spark快速入門指南(Quick Start Spark)

大數據學習之Spark快速入門指南(Quick Start Spark)快速入門指南(Quick Start Spark)這個文檔只是簡單的介紹如何快速地...

Spark Scala 大數據 Apache MapReduce Line Java Hadoop Word 跳槽那些事兒泛函編程 Python 2019-07-12

ROG遊戲手機2為玩家定製Storm網絡加速方案《王牌戰士》率先適配極速開戰

日前得知，ROG遊戲手機2將為玩家定製Storm網絡加速方案，由騰訊手遊加速器提供技術支持。Storm網絡加速方案擁有騰訊專屬加速服務器，加速節點遍佈全...

Storm 騰訊遊戲 Wi-Fi 騰訊技術射擊熱血動漫動漫 2019-07-11

推薦中...