開源軟件框架之Hadoop

開源軟件 Hadoop HDFS 雲計算 GDCA數安時代 GDCA數安時代 2017-09-11

什麼是Hadoop？

Hadoop是一個開發和運行處理大規模數據的軟件平臺，是Apache的一個用java語言實現開源軟件框架，實現在大量計算機組成的集群中對海量數據進行分佈式計算。

Hadoop實現了一個分佈式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數據，適合那些有著超大數據集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統中的數據。

Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

開源軟件框架之Hadoop

架構

Hadoop由許多元素構成，其最底部是HDFS，它存儲Hadoop集群中所有存儲節點上的文件，HDFS（對於本文）的上一層是MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成，對外部客戶機而言，HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件，比如創建執行命令：hadoop fs -mkdir /fc/src/ 這樣就創建了目錄 /fc/src/，hadoop fs -rmr /fc/src/這樣就刪除了目錄src，等等。Hadoop的架構是基於一組特定的節點構建的，如下圖：它包括了 NameNode（僅一個，負責協調，提供元數據服務）、DataNode（可以多個，負責幹活，提供存儲塊），這裡括號的內容不明白的可以不用先管，繼續往下看。

開源軟件框架之Hadoop

1、NameNode

NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟件；存儲在HDFS中的文件會被分成塊（Block），然後將這些塊複製到多個計算機中（就是DataNode中），每個塊的大小通常為64M，塊大小和複製數量（默認保存3份）在創建文件時有客戶機決定，可以設置。NameNode負責管理文件系統名稱空間和控制外部客戶機的訪問，主要提供名稱查詢服務，NameNode保存的信息主要包括：哪個文件分了多少塊，每個塊放在哪個節點上等這些信息，如下列表：

1、文件owership和permissions

2、文件包含哪些塊

3、Block保存在哪個DataNode（由DataNode啟動時上報）

開源軟件框架之Hadoop

NameNode的metadata（元數據）信息在啟動後會加載到內存，metadata存儲到磁盤文件名為”fsimage”；

開源軟件框架之Hadoop

2、DataNode

DataNode也是通常在HDFS實例中單獨機器上運行的軟件，Hadoop集群包含一個NameNode和大量DataNode。DataNode通常以機架的形式組織，機架通過一個交換機將所有系統連接起來；

DataNode的主要工作：保存Block（數據塊）、啟動DataNode線程時會向NameNode彙報block信息、通過向NameNode發送心跳保持與其聯繫（3秒一次），如果NN（下面都用NN表示NameNode,DN表示DataNode，便於書寫）10分鐘沒有收到DN的心跳，則認為其已經Lost，並copy其上的block（塊）到其他DN。如下圖：

開源軟件框架之Hadoop

這裡講下Block的副本放置策略：

1、第一個副本：放置在上傳文件的DN；如果是集群外提交，則隨機挑選一臺磁盤不太滿，CPU不太忙的節點

2、第二個副本：放置在於第一個副本不同的機架的節點上

3、第三個副本：與第二個副本相同集群的節點

4、更多副本：隨機節點

再提下Block：

設置一個Block 64MB，如果上傳文件小於該值，仍然會佔用一個Block的命名空間（NameNode metadata），但是物理存儲上不會佔用64MB的空間

Block大小和副本數由Client端上傳文件到HDFS時設置，其中副本數可以變更，Block是不可以再上傳後變更的；所以要根據自己平時處理的文件大小自己設置，以免浪費塊空間；

3、數據損壞處理

1、當DN讀取block的時候，它會計算checksum

2、如果計算後的checksum，與block創建時值不一樣，說明該block已經損壞。

3、client讀取其它DN上的block；NN標記該塊已經損壞，然後複製block達到預期設置的文件備份數

4、DN在其文件創建後三週驗證其checksum

Hadoop的優點

Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。

Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分佈處理。

Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。

Hadoop 還是可伸縮的，能夠處理 PB 級數據。

此外，Hadoop 依賴於社區服務，因此它的成本比較低，任何人都可以使用。

Hadoop是一個能夠讓用戶輕鬆架構和使用的分佈式計算平臺。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

高效性。Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

高容錯性。Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平臺上是非常理想的。Hadoop 上的應用程序也可以使用其他語言編寫，比如 C++。

hadoop大數據處理的意義

Hadoop得以在大數據處理應用中廣泛應用得益於其自身在數據提取、變形和加載(ETL)方面上的天然優勢。Hadoop的分佈式架構，將大數據處理引擎儘可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎，並將碎片任務(Map)發送到多個節點上，之後再以單個數據集的形式加載(Reduce)到數據倉庫裡。

信息安全

通過Hadoop安全部署經驗總結，開發出以下十大建議，以確保大型和複雜多樣環境下的數據信息安全。

1、先下手為強!在規劃部署階段就確定數據的隱私保護策略，最好是在將數據放入到Hadoop之前就確定好保護策略。

2、確定哪些數據屬於企業的敏感數據。根據公司的隱私保護政策，以及相關的行業法規和政府規章來綜合確定。

3、及時發現敏感數據是否暴露在外，或者是否導入到Hadoop中。

4、蒐集信息並決定是否暴露出安全風險。

5、確定商業分析是否需要訪問真實數據，或者確定是否可以使用這些敏感數據。然後，選擇合適的加密技術。如果有任何疑問，對其進行加密隱藏處理，同時提供最安全的加密技術和靈活的應對策略，以適應未來需求的發展。

6、確保數據保護方案同時採用了隱藏和加密技術，尤其是如果我們需要將敏感數據在Hadoop中保持獨立的話。

7、確保數據保護方案適用於所有的數據文件，以保存在數據彙總中實現數據分析的準確性。

8、確定是否需要為特定的數據集量身定製保護方案，並考慮將Hadoop的目錄分成較小的更為安全的組。

9、確保選擇的加密解決方案可與公司的訪問控制技術互操作，允許不同用戶可以有選擇性地訪問Hadoop集群中的數據。

10、確保需要加密的時候有合適的技術(比如Java、Pig等)可被部署並支持無縫解密和快速訪問數據。

開源軟件框架之Hadoop

SSL證書採用了技術含量比較高的加密技術。日後GDCA（數安時代）將會持續為大家推薦更多關於SSL證書的技術知識。讓大家正確認識SSL證書，快速無誤部署HTTPS安全協議。更多資訊，請關注GDCA。

文章轉載：https://www.trustauth.cn/wiki/21384.html

相關推薦

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'WinRAR該讓位了？免費開源的壓縮軟件橫空出世'

"有壓縮軟件可謂是裝機必備的軟件了，然而你是否真的有選對壓縮軟件？很多朋友都會用到國產的一些壓縮軟件，但這其實可能並非是明智之選。眾所周知，如果某種類軟件存在開源方案，那麼商業公司往往會一擁而上，用開源代碼改造出臃腫的、甚至是帶惡意彈窗推廣的流氓軟件。很不幸，壓縮軟件正是此...

WinRAR 軟件開源軟件 7z 瀏覽器 Windows 2019-09-13

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'十大開源技術讓大數據工程師年薪百萬不是夢！是真的嗎？'

"Linux 基金會和在線求職招聘網站 Dice 發佈了一份關於開源招聘的調查結果。結果顯示，相對於其他類型的 IT 工作者，67% 的管理人員更希望僱傭在開源技術方面有所專長的技術人員。此外，42% 的受訪管理人員表示，他們需要招聘更多熟悉開源技術的人才，因為他們正在增加...

大數據工程師技術程序員招聘 Linux DevOps 跳槽那些事兒雲計算 Stack Overflow Hadoop 軟件 0verflow OpenStack EA DICE 2019-09-10

'區塊鏈行業陰晴不定，誰將會開源代碼持續買單？'

"今年早些時候，IBM 斥資 340 億美元收購了一度被認為是開放源碼模式成功典範的紅帽公司（Red Hat）。長期為企業提供諮詢服務的 IBM 正處於轉型時期，亟需一次大的提升。紅帽公司的開源軟件為 IBM 提供了與亞馬遜、微軟和谷歌雲服務更好地競爭的能力。圖 | 紅帽...

區塊鏈開源軟件比特幣技術紅帽公司 IBM 麻省理工學院 Google Square 傑克·多西雲計算微軟證券投資基金銀行人生第一份工作 2019-09-09

'隨著加密市場的冷清，誰會為開源代碼買單？'

"丹尼爾凱瑞以前是Coindesk的特約編輯，他是即將由O'Reilly Media出版的《掌握區塊鏈》一書的作者。今年早些時候，IBM斥資340億美元收購了紅帽（RedHat），紅帽是一種經常被提及的開放源碼如何蓬勃發展的模式。作為企業的顧問，ibm正經歷一個轉型期，需要...

開源軟件比特幣技術 IBM 麻省理工學院證券投資基金雲計算紅帽公司 Square OKCoin Google 區塊鏈設計微軟銀行 2019-09-08

'浪潮商用機器：能否以開源和開放，重構數據中心新格局？'

"過去幾年，無論是以OpenStack為代表的私有云市場，或者是以Kubernetes為代表的容器雲市場，還是以Hadoop、Spark為代表的大數據市場，無不是依託開源和開放的新模式，成為了重塑軟件產業的一把新鑰匙。而在數據中心領域，開放計算和開源硬件同樣也成為了一種新趨...

開源硬件技術 X86 IBM 硬件中央處理器 Hadoop 人工智能騰訊雲計算 Linux 大數據 OpenStack 阿里雲計算 Spark 軟件騰訊 Google 運營商設計金融人生第一份工作通信 2019-09-07

'可3D打印開源汽車OSVehicle幫您DIY自己的汽車'

" 摘要: 到目前為止，您可能聽說過開源軟件、開源硬件、開源的視頻遊戲和開放源代碼的網頁...但您不一定聽說過開源的汽車。TinHangLiu的家族自從父輩起就在汽車行業裡打拼，但是他早就厭倦了這個百年行業缺乏創新的封閉商業 ... 到目前為止，您可能聽說過開源軟件、開源硬...

開源硬件 3D打印開源軟件硬件 DIY 設計工程師打印機汽車設計電子遊戲設計師 2019-09-07

'中國芯有望與英特爾、ARM三分天下？倪光南：RISC-V開源成為主流'

"現在的電腦處理器行業壟斷過於嚴重，幾乎被英特爾以及ARM佔據了，國內的國產品牌電腦處理器幾乎是一片空白。不過這種情況馬上就要被打破了。昨天，中國工程院院士倪光南在2019世界人工智能大會上指出，雲計算、大數據技術不斷進步，廣泛地應用，開源軟件的發展也會更快。RISC-V...

英特爾倪光南 ARM 技術大數據電腦中央處理器操作系統華為公司軟件開源軟件中興通訊 2019世界人工智能大會阿里巴巴集團超微半導體 X86 雲計算 2019-09-04

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

'《哪吒》外包公司用盜版軟件被告，我國開源業不興特效則死'

"最近的《哪吒之魔童降世》火得一塌糊塗，圍繞中國CG動畫業是否崛起之類的話題又一次被大家熱烈討論起來。不過人紅是非多，樹大定招風，最近網上又有人曝光和《哪吒》動畫片相關的不好的信息：《哪吒》背後的外包公司使用盜版軟件，被軟件方告了，“可能會死一大片國內動畫公司”。想必說起盜...

軟件哪吒開源軟件設計動畫文化 Maya 技術電腦人生第一份工作圖像處理硬件操作系統 Linux 一塌糊塗BBS 華為公司 Windows 2019-09-01

'數字化轉型之解決方案篇 | 基於 QingStor®️ 對象存儲的數據湖解決方案'

"據 IDC 最新報告預測，2022 年中國 50% 以上的組織都將成為數字化堅定者，依靠新的商業模式、數字化產品與服務實現業務增長。面對數字化轉型的時代浪潮，青小云為大家準備了一份硬核大禮 —— 《數字化轉型之路》，包含基礎設施、業務架構、解決方案到行業實踐、未來探索五個...

大數據技術經濟人工智能金融 Hadoop 固態硬盤青雲雲存儲人生第一份工作工程師 SQL 2019-08-31

'倪光南：開源芯片或是中國芯片業機遇'

"新華社重慶8月27日電（記者張翅）中國工程院院士、中國科學院計算技術研究所研究員倪光南在2019中國國際智能產業博覽會上指出，隨著雲計算、大數據等興起，開源軟件的發展會更快，開源芯片或是中國芯片業機遇。“軟件對於數字經濟發展的意義重大。”倪光南認為，軟件產業有基礎性、戰略...

倪光南開源軟件軟件雲計算大數據中央處理器 ARM 技術經濟英特爾 2019-08-29

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'倪光南院士：大力發展工業軟件'

"近日，在2019中國（杭州）工業互聯網大會上，中國工程院院士倪光南在主題演講時表示，作為工業互聯網的重要支撐技術，工業軟件是其短板，因此要大力發展工業軟件。工業軟件是實現製造強國戰略的短板當前，我國正在加快推動由“製造大國”向“製造強國”轉變，工業軟件作為智能製造的重要基...

倪光南軟件技術開源軟件操作系統 ANSYS 工業設計設計華為公司物聯網雲計算 Simula 硬件百度人工智能機器人 2019-08-21

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'Cloudera和開源軟件的商業模式'

"Tom Reilly, chief executive officer of Cloudera Inc.文｜郭華今年7月10日，Cloudera寫了一篇文章叫《我們對開源的承諾》，宣佈開源其所有商業軟件。公司以盈利為目的，Cloudera也不例外，不過這家致力於在開源軟件...

開源軟件 Cloudera 軟件 Hadoop 數據庫大數據 Hortonworks 文章 Apache 技術人生第一份工作 PostgreSQL MySQL Facebook Nutch Google HBase 工程師加州大學伯克利分校硅谷 Hive Mike 雅虎 2019-08-14

'大數據公司MapR被惠普企業收購，看重竟然不是Hadoop能力'

"本文作者│劉學習Fiyinghare傳言成真！大數據軟件公司MapR難以為繼，被惠普企業HPE收購。8月6日，惠普企業HPE宣佈將收購大數據基礎軟件企業、Hadoop 技術三大巨頭之一的MapR Technologies的資產。HPE表示，這次收購包括MapR的技術、知識...

Hadoop 大數據技術惠普618一戰到底 Cloudera 人工智能軟件人生第一份工作知識產權 Hortonworks Apache 2019-08-14

推薦中...