Storm介紹以及Hadoop和Storm的區別

Storm Hadoop 編程語言 HDFS 蒼茫漂漂 2017-03-31

根據官方文檔介紹，Storm有以下的特性：

Storm是一個開源的分佈式實時計算系統，可以簡單、可靠的處理大量的數據流。Storm有很多使用場景：如實時分析，在線機器學習，持續計算，分佈式RPC，ETL等等。Storm支持水平擴展，具有高容錯性，保證每個消息都會得到處理，而且處理速度很快（在一個小集群中，每個結點每秒可以處理數以百萬計的消息）。Storm的部署和運維都很便捷，而且更為重要的是可以使用任意編程語言來開發應用。

Storm有如下特點：

編程模型簡單

在大數據處理方面相信大家對hadoop已經耳熟能詳，基於Google Map/Reduce來實現的Hadoop為開發者提供了map、reduce原語，使並行批處理程序變得非常地簡單和優美。同樣，Storm也為大數據的實時計算提供了一些簡單優美的原語，這大大降低了開發並行實時處理的任務的複雜性，幫助你快速、高效的開發應用。

可擴展

在Storm集群中真正運行topology的主要有三個實體：工作進程、線程和任務。Storm集群中的每臺機器上都可以運行多個工作進程，每個工作進程又可創建多個線程，每個線程可以執行多個任務，任務是真正進行數據處理的實體，我們開發的spout、bolt就是作為一個或者多個任務的方式執行的。因此，計算任務在多個線程、進程和服務器之間並行進行，支持靈活的水平擴展。

高可靠性 Storm可以保證spout發出的每條消息都能被“完全處理”，這也是直接區別於其他實時系統的地方，如S4。

請注意，spout發出的消息後續可能會觸發產生成千上萬條消息，可以形象的理解為一棵消息樹，其中spout發出的消息為樹根，Storm會跟蹤這棵消息樹的處理情況，只有當這棵消息樹中的所有消息都被處理了，Storm才會認為spout發出的這個消息已經被“完全處理”。如果這棵消息樹中的任何一個消息處理失敗了，或者整棵消息樹在限定的時間內沒有“完全處理”，那麼spout發出的消息就會重發。

考慮到儘可能減少對內存的消耗，Storm並不會跟蹤消息樹中的每個消息，而是採用了一些特殊的策略，它把消息樹當作一個整體來跟蹤，對消息樹中所有消息的唯一id進行異或計算，通過是否為零來判定spout發出的消息是否被“完全處理”，這極大的節約了內存和簡化了判定邏輯，後面會對這種機制進行詳細介紹。

這種模式，每發送一個消息，都會同步發送一個ack/fail，對於網絡的帶寬會有一定的消耗，如果對於可靠性要求不高，可通過使用不同的emit接口關閉該模式。

上面所說的，Storm保證了每個消息至少被處理一次，但是對於有些計算場合，會嚴格要求每個消息只被處理一次，幸而Storm的0.7.0引入了事務性拓撲，解決了這個問題，後面會有詳述。

高容錯性

如果在消息處理過程中出了一些異常，Storm會重新安排這個出問題的處理單元。Storm保證一個處理單元永遠運行（除非你顯式殺掉這個處理單元）。

當然，如果處理單元中存儲了中間狀態，那麼當處理單元重新被Storm啟動的時候，需要應用自己處理中間狀態的恢復。

支持多種編程語言

除了用java實現spout和bolt，你還可以使用任何你熟悉的編程語言來完成這項工作，這一切得益於Storm所謂的多語言協議。多語言協議是Storm內部的一種特殊協議，允許spout或者bolt使用標準輸入和標準輸出來進行消息傳遞，傳遞的消息為單行文本或者是json編碼的多行。

Storm支持多語言編程主要是通過ShellBolt, ShellSpout和ShellProcess這些類來實現的，這些類都實現了IBolt 和 ISpout接口，以及讓shell通過java的ProcessBuilder類來執行腳本或者程序的協議。

可以看到，採用這種方式，每個tuple在處理的時候都需要進行json的編解碼，因此在吞吐量上會有較大影響。

支持本地模式

Storm有一種“本地模式”，也就是在進程中模擬一個Storm集群的所有功能，以本地模式運行topology跟在集群上運行topology類似，這對於我們開發和測試來說非常有用。

高效

用ZeroMQ作為底層消息隊列, 保證消息能快速被處理。

Hadoop和Storm有什麼區別和聯繫呢：

Storm介紹以及Hadoop和Storm的區別

如果，你看懂了上圖，那麼你也未必看懂Hadoop與Storm的區別。從上圖基本可以看出，Hadoop是進行批量處理的，而Storm是進行流式處理。

接下來看一下具體Hadoop與Storm的區別：

1、數據來源

Hadoop是HDFS上某個文件夾下的數據，可能是成TB的數據，而Storm是實時新增的某一筆數據，這個數據可能很小隻有幾KB。

2、處理過程

Hadoop是分MAP階段到REDUCE階段，而Storm是由用戶定義處理流程，流程中可以包含多個步驟，每個步驟可以是數據源(SPOUT)或處理邏輯(BOLT)。

3、是否結束

Hadoop最後在Reduce執行結束後是要結束的，而Storm是沒有結束狀態，到最後一步時，就停在那裡，直到有新數據進入時再從頭開始。

4、處理速度

Hadoop是以處理HDFS上大量數據為目的，速度慢，而Storm是隻要處理新增的某一筆數據即可，可以做到很快。

5、適用場景

Hadoop是在要處理一批數據時用的，不講究時效性，要處理就提交一個Job，而Storm是要處理某一新增數據時用的，要講時效性。

6、MQ應用

Hadoop沒有應用MQ，故沒有太多需要描述，而Storm可以看作是有N個步驟，每個步驟處理完就向下一個MQ發送消息，監聽這個MQ的消費者繼續處

本人熱愛技術，喜歡交流學習，有什麼前瞻新技術大家一起加群（Q）：131322610 溝通學習

Storm介紹以及Hadoop和Storm的區別

相關推薦

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'一個資深C語言工程師：淺說C語言的重要性以及如何學好C語言'

"前言C語言屬於高級程序語言的一種，它的前身是“ALGOL”。其創始人是布朗·W·卡尼漢和丹尼斯·M·利奇。C語言問世時是帶有很大的侷限性，因為它只能用於UNIX系統上。然而隨著科學技術的進步，計算機工業的發展，C語言逐漸脫離UNIX。1987年美國標準化協會制定了C語言的...

C語言編程語言工程師數據結構 Java JavaScript BASIC語言程序員程序設計 UNIX 編譯器算法 Windows VBScript FoxPro 多看閱讀軟件 Visual Basic Perl 小遊戲硬件 ASP 2019-09-05

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

'編程、樂高、機器人的區別'

"“樂高學的是什麼？”“樂高機器人就是學編程嗎？”“編程就是用電腦敲代碼那樣嗎？”“編程和樂高、機器人，究竟是啥關係？”“讓孩子學樂高、機器人還是學習少兒編程呢？““這三者哪個對孩子教育和未來發展更好？”隨著少兒編程、樂高、機器人課程的大火，許多家長都在糾結以上幾個問題，不...

樂高積木機器人編程語言 Python 電腦不完美媽媽 Google 設計人工智能算法設計麻省理工學院算法全國計算機等級考試程序員變形金剛工程師讀書英語可視化技術無人駕駛人生第一份工作玩具 2019-08-30

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'美國計算機專業介紹及其院校推薦'

"計算機專業主要可分為計算機科學（Computer Science,簡稱CS）和計算機工程（Computer Engineering，簡稱CE），還有計算機科學與工程、計算機科學與數學等混合交叉專業。計算機科學和計算機工程雖同屬於計算機專業但還是有一些不同。今天李老師...

電腦斯坦福大學 GRE 加州大學伯克利分校託福麻省理工學院大學雅思 MBA 人工智能數學卡內基梅隆大學人生第一份工作康奈爾大學 MOOC 物理編程語言伊利諾伊紐約大學數據庫軟件地理加利福尼亞 2019-08-28

'數據倉庫Greenplum基本介紹'

"Greenplum簡介Greenplum是面向數據倉庫應用的關係型數據庫，基於PostgreSQL開發，跟PostgreSQL的兼容性非常好，大部分PostgreSQL客戶端工具及PostgreSQL應用都能運行在Greenplum平臺上。一、Greenplum屬於OLA...

數據庫 PostgreSQL SQL NewSql Line NoSQL 開源軟件 Hadoop 2019-08-27

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'專利和軟著的區別'

"軟件著作權和專利都屬於知識產權保護範疇之內它們的相同點很少,不同點卻很多相同點是:申請成功都能獲得政府資助，並且都可以作為申請國家高新技術企業的條件等。 ▲依據法律不同軟件著作權保護是依據《著作權法》和《計算機軟件保護條例》來實行的; 專利保護是依據《專利法》來實行的。...

軟件編程語言設計硬件技術知識產權 2019-08-17

'最受歡迎的7種兒童編程語言介紹！排第一的居然叫Scratch？（下）'

"本文屬於少兒慧編程原創，如需轉載，請關注並聯系我們！劃重點！記筆記時間又到啦：前七名排行榜：Scratch；Blockly；Python；JavaScript，電腦、手機、平板上瀏覽的所有的網頁，以及無數的手機App，交互邏輯都是由JavaScript驅動； Lua，小巧...

編程語言 Java 智能手機 Firefox Lua 電腦微軟 JavaScript iOS Android 腳本語言我的世界 Python Google 不完美媽媽瀏覽器程序員設計裝修硬件 Qwodeshijie 操作系統文章 Mozilla 大學平板電腦 Chrome 2019-08-16

'大數據公司MapR被惠普企業收購，看重竟然不是Hadoop能力'

"本文作者│劉學習Fiyinghare傳言成真！大數據軟件公司MapR難以為繼，被惠普企業HPE收購。8月6日，惠普企業HPE宣佈將收購大數據基礎軟件企業、Hadoop 技術三大巨頭之一的MapR Technologies的資產。HPE表示，這次收購包括MapR的技術、知識...

Hadoop 大數據技術惠普618一戰到底 Cloudera 人工智能軟件人生第一份工作知識產權 Hortonworks Apache 2019-08-14

'由Hadoop驅動的原始大數據時代已於2019年6月結束……'

"全文共3946字，預計學習時長8分鐘圖片來源：unsplash.com/@ev隨著當下的重點從收集數據轉向實時處理數據，大數據時代正走向消亡。如今大數據是種商業資產，為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。原始大數據時代終結於2019年6月5日，這一天，湯姆...

Hadoop 大數據數據庫 Cloudera Hortonworks 機器學習技術 Google NoSQL EMC Hive Apache Spark 2019-08-13

'Linux查找文件內容和字符串之grep與egrep的區別'

"請關注本頭條號，每天堅持更新原創乾貨技術文章。如需學習視頻，請在微信搜索公眾號“智傳網優”直接開始自助視頻學習1. 前言grep （global search regular expression_r(RE) and print out the line,全面搜索正則表達...

Linux 腳本語言 Word C語言編程語言 UNIX Line 程序設計文本編輯器軟件 GNU 2019-08-13

'HPE收購MapR，以Hadoop供應商為首的大數據時代落幕'

"Hadoop三駕馬車之一的MapR陷入困境後終於有了著落，今年5月底MapR宣佈由於“業績極差”將被迫關閉公司，MapR給自己設定尋找資金的最後期限是7月3日，一個月後MapR被HPE收購。8月5日，HPE宣佈收購MapR的業務資產，收購金額未透露。本次交易包括MapR的...

Hadoop 大數據惠普公司人工智能技術跳槽那些事兒雲計算軟件 Docker 人生第一份工作 Cloudera 知識產權高德納集團 2019-08-12

'最受歡迎的7種兒童編程語言介紹！排第一的居然叫Scratch！（上）'

"本文屬於少兒慧編程原創，如需轉載，請關注並聯系我們！咳咳咳！敲黑板，劃重點：排名前三：Scratch，由麻省理工學院開發的一款圖形化積木塊教育編程語言；Blockly，也是圖形化編程語言，但可以生成文本代碼；Python，對於初學者，是學習基於文本的計算機編程語言的首選。...

編程語言不完美媽媽可視化技術設計 Google 幼兒園電腦鼠標 Python 麻省理工學院軟件卡通英語動畫 2019-08-10

'學習編程丨初學者學習編程面對C/C++以及Java，應該怎麼樣選擇？'

"對於初入編程的某些小夥伴來說，方向選擇可能比努力更重要,對於初學編程的人來說選擇一門合適的編程語言關係到自己以後的職業發展。c++和Java哪個更適合作為入門語言?Java語言Java是一個純粹的面向對象的程序設計語言，它繼承了C++語言面向對象技術的核心。Java捨棄了...

Java C語言編程語言工程師技術人生第一份工作過程化編程 iOS Android 硬件彙編語言電腦軟件程序員面向對象程序編程 Python 2019-08-10

'美國留學 | 美國計算機專業介紹與院校推薦'

"計算機專業主要可分為計算機科學（Computer Science,簡稱CS）和計算機工程（Computer Engineering，簡稱CE），還有計算機科學與工程、計算機科學與數學等混合交叉專業。計算機科學和計算機工程雖同屬於計算機專業但還是有一些不同。今天就給大家推...

電腦留學斯坦福大學 GRE 加州大學伯克利分校託福麻省理工學院大學雅思 MBA 人工智能數學人生第一份工作卡內基梅隆大學物理康奈爾大學 MOOC 紐約大學編程語言伊利諾伊軟件地理加利福尼亞 2019-08-09

推薦中...