Hadoop文件系統HDFS的巧妙設計

HDFS Hadoop MapReduce 技術妞妞 2017-06-10

上一篇文章我們只是簡單的介紹了Hadoop的文件系統，但是對於整個文件系統的管理以及維護我們還並不是很瞭解，面對一個文件大小已經到達GB的處理文件，當個機器來跑一段即便只是來統計文件中單詞的個數，可能都會垮掉，而我們Hadoop的HDFS的分佈式存儲以及之後我們會講到的Map-Reduce都非常擅長處理GB級別的文件。

HDFS的設計

HDFS以流式數據訪問模式來存儲超大文件，主要處理的文件指的就是幾百MB，幾百GB甚至幾百TB大小的文件，一次寫入，多次讀取是HDFS的設計思路。把超大的數據文件劃分成數據塊，並且將數據塊作為進行數據讀寫的最小單位。一般HDFS中的塊比磁盤的塊要大，這是為了在分佈式計算或者是為了保障高可用性時進行復制減少尋址開銷。對於分佈式文件系統中設置塊

首先：一個文件的大小可以大於分佈式系統中任意一個磁盤的容量。文件的所有塊都不用存儲在同一個磁盤商行，可以利用集群中的任意一個磁盤進行存儲。

其次：在集群中某個節點掛掉後，這個節點上所存儲的塊都會丟失，但是可以從其他節點上得到對應的塊進行拷貝（因為同樣的數據塊會進行拷貝放到不同的節點上）。數據塊的存在對數據備份，以及數據容錯性和提高可用性都是非常必要的。

Hadoop文件系統HDFS的巧妙設計

HDFS的管理

一個超大文件被劃分成多個數據塊，首先我們必須保存文件和數據塊的映射關係，知道哪些數據塊是屬於一個文件的。另外，我們還必須保障數據塊和集群節點的映射關係，哪些數據塊在哪個節點上面，當集群中的某一個節點掛掉的時候，就能及時瞭解到哪些數據塊的備份少了一個，能夠及時對相應的塊進行拷貝到其他空閒的節點上。

HDFS的管理機制也就決定了在HDFS集群中有兩類節點以管理者-工作者模式運行。管理者也就是namenode，工作者則是datanode,通常管理者只有一個，而工作者則會有多個，但是由於管理者保存元數據，一旦掛掉整個HDFS集群將癱瘓。所以，在Hadoop2.X增加HA，提供的備用的datanode。

Hadoop文件系統HDFS的巧妙設計

datanode是客戶端進入Hadoop的入口，管理文件系統的命名空間。保存了類似文件名、文件大小、文件權限，它有每個文件中各個塊所在的節點信息，但是並不會保存，在Hadoop開啟後那些工作者datanode會向namenode上報節點都datanode上都存儲了哪些數據塊。

Datanode上可以放多個數據塊，這些數據塊通常是不同，這樣能保證當這個datanode所在的節點掛掉能進行拷貝恢復。

Namenode和datanode之間存在著心跳機制，namenode會每隔一段時間檢測是否有datanode所在的節點是否會掛掉，當發現掛掉時就進行拷貝。

Hadoop文件系統HDFS的巧妙設計

這只是HDFS 大體的工作機制，其實在提高可用性、容錯性方面HDFS還有很多策略，比如SecondaryNameNode還有HA。

相關推薦

'基於Flume的美團日誌收集系統(一) 架構和設計'

"背景美團的日誌收集系統負責美團的所有業務日誌的收集，並分別給Hadoop平臺提供離線數據和Storm平臺提供實時數據流。美團的日誌收集系統基於Flume設計和搭建而成。《基於Flume的美團日誌收集系統》將分兩部分給讀者呈現美團日誌收集系統的架構設計和實戰經驗。第一部分架...

美團網設計 Storm HDFS Hadoop Apache 大數據 Cloudera Facebook 2019-09-14

'阿里資深架構師教你如何設計出一個完美的分佈式系統'

"1. 分佈式系統相關概念1.1 模型1.1.1 節點節點是一個可以獨立按照分佈式協議完成一組邏輯的程序個體，工程中往往指進程。1.1.2 通信節點之間完全獨立互相隔離，通信唯一方式是通過不可靠的網絡。1.1.3 存儲節點可以通過將數據寫入與節點在同一臺機器的本地存儲設備保...

設計 Java 技術可視化技術 GFS MapReduce 通信鼠標 2019-08-28

'分佈式系統你會設計了嗎？不會阿里架構師來教你設計'

設計 Java 技術 MapReduce 可視化技術 GFS 通信鼠標 2019-08-23

'阿里資深架構師教你如何設計出一個完美的分佈式系統？'

設計 Java 技術可視化技術 GFS MapReduce 通信鼠標 2019-08-21

'大生態數據系統領域發生了一件事情，你知道嗎？'

"全文共2737字，預計學習時長5分鐘圖片來源：pexels.com/@bertellifotografia近期，大生態數據系統領域發生了一件事情：思科(Cisco)將人工智能硬件框架與一個由八個GPU驅動的新型深度學習服務器相結合。Wikibon首席分析師James Ko...

人工智能軟件技術 DevOps 電腦 Google 雲計算思科系統 Spark 無人駕駛開源軟件 Azure Hadoop 硬件 GPU Apache 算法語音識別技術 HDFS 人生第一份工作人臉識別中央處理器 2019-08-14

'大數據生態系統又一次更新！集裝化成大趨勢'

人工智能大數據軟件技術 DevOps 電腦 Google 雲計算 Spark 開源軟件思科系統無人駕駛 Hadoop 算法 Azure GPU 語音識別技術 Apache 硬件 HDFS 人臉識別人生第一份工作中央處理器 2019-08-12

'數據系統架構的演變'

"01 傳統數據基礎架構如圖1-1所示，傳統單體數據架構(Monolithic Architecture)最大的特點便是集中式數據存儲，企業內部可能有諸多的系統，例如Web業務系統、訂單系統、CRM系統、ERP系統、監控系統等，這些系統的事務性數據主要基於集中式的關係性數據...

數據庫 Hadoop Apache 大數據數據挖掘 Spark 技術數據結構 MySQL 市場營銷 MapReduce Storm SQL 2019-08-04

'2019全網最全大數據系統學習路徑（附全套大數據學習教程分享'

"第一階段linux+搜索+hadoop體系Linux基礎→shell編程→高併發架構→lucene,solr搜索→hadoop體系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→項目實戰一第二階段機器學習R語言→mahou...

Linux 大數據 Lucene Redis Spark 搜索引擎數據庫 Solr Storm Hadoop Vim 技術 Tomcat Vi 機器學習 Docker Memcached OpenStack 算法 Python HBase 腳本語言 R語言 MySQL Nginx 軟件雲計算 SQL Google Scala Java Hive MapReduce NoSQL CentOS Java虛擬機虛擬機 HDFS VMware 百度信息檢索 Apache 2019-08-04

'大數據環境下的推薦系統，有哪些特點與技術，面臨什麼挑戰'

"特點與挑戰雖然推薦系統己經被成功運用於很多大型系統及網站，但是在當前大數據的時代背景下，推薦系統的應用場景越來越多樣，推薦系統不僅面臨數據稀疏、冷啟動、興趣偏見等傳統難題，還面臨由大數據引發的更多、更復雜的實際問題。大數據本身具有的複雜性、不確定性和湧現性也給推薦系統帶來...

推薦技術大數據技術算法分佈式計算 Hadoop MapReduce 設計並行計算 2019-07-30

'Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式'

"Spark 大數據處理框架簡介Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架。Spark，擁有Had...

Spark 大數據 Hadoop HDFS Amazon EC2 Storm 機器學習 MapReduce 設計 HBase Hive 數據挖掘軟件技術 SQL 加州大學伯克利分校 Cassandra Java 亞馬遜公司 UC瀏覽器算法 Python 2019-07-29

'大數據與Hadoop有什麼關係？大數據Hadoop入門簡介'

"學習著數據科學與大數據技術專業（簡稱大數據）的我們，對於“大數據”這個詞是再熟悉不過了，而每當我們越去了解大數據就越發現有個詞也會一直被提及那就是——Hadoop那Hadoop與大數據有什麼關係呢？所謂大數據，就是從各種類型的數據中，快速獲得有價值信息的能力。大數據是需要...

Hadoop 大數據 HDFS HBase 技術數據庫 Apache Hive MapReduce SQL Java Linux 分佈式計算軟件 Storm Python 編譯器人工智能 Scala Spark MySQL 硬件 2019-07-27

最系統的大數據技術盤點，學會一半就是數據大牛

說起大數據，很多人都能聊上一會，但要是問大數據核心技術有哪些，估計很多人就說不上一二來了。從機器學習到數據可視化，大數據發展至今已經擁有了一套相當成熟的技...

大數據技術算法數據挖掘數據庫可視化技術 Hadoop 操作系統軟件分佈式計算 NoSQL 機器學習設計網絡爬蟲 HDFS MySQL HBase 硬件 2019-07-13

如何用形象的比喻描述大數據Hadoop、Hive、Spark 之間是什麼關係

問題：如何用形象的比喻描述大數據的技術生態？Hadoop、Hive、Spark 之間是什麼關係？對於我們這些文科，商科生來說。我們剛剛搞懂服務器，數據庫，...

Spark Hadoop 大數據 Hive HDFS MapReduce 技術數據庫算法 BigTable 腳本語言工程師 Cassandra Java 彙編語言 GFS 設計程序員 HBase 2019-07-10

超詳細的fastdfs和其他文件系統區別介紹

一、概述一般普通存儲方案有：Rsync、DAS(IDE/SATA/SAS/SCSI等塊)、NAS(NFS、CIFS、SAMBA等文件系統)、SAN(Fib...

GFS Google Hadoop HDFS MongoDB Linux Nutch 軟件數據庫 Sage Lucene Apache 技術 PHP 淘寶網 Perl 大數據集成開發環境算法 MapReduce 搜索引擎開源軟件 NoSQL 2019-07-07

Hadoop技術分享：HDFS概念普及版

hadoopHadoop 是 Apache 旗下的一個用 java 語言實現開源軟件框架，是一個開發和運行處理大規模數據的軟件平臺。允許使用簡單的編程模型...

Hadoop HDFS 技術 Java Apache 軟件開源軟件設計 HBase MapReduce 中央處理器硬件 2019-07-06

Hadoop生態系統-新手快速入門（含HDFS、HBase系統架構）

Hadoop簡介Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集群的威...

Hadoop HDFS HBase Hive MapReduce SQL Apache 設計數據庫 Java 軟件 Java虛擬機分佈式計算瀏覽器數據結構硬件 2019-06-28

什麼是分佈式系統！以及分佈式系統架構的優缺點

現在的架構很多，各種各樣的，如高併發架構、異地多活架構、容器化架構、微服務架構、高可用架構、彈性化架構等，還有和這些架構相關的管理型的技術方法，如 Dev...

操作系統技術 Hadoop 數據庫軟件 DevOps 設計 CSDN 程序設計編程語言 2019-06-22

有贊百億級日誌系統架構設計

一、概述日誌是記錄系統中各種問題信息的關鍵，也是一種常見的海量數據。日誌平臺為集團所有業務系統提供日誌採集、消費、分析、存儲、索引和查詢的一站式日誌服務。...

設計 Java Spark ElasticSearch HDFS 固態硬盤 Storm 2019-06-20

和信貸風控系統正式上線分佈式Hadoop架構效率大幅提升

6月14日，美股納斯達克上市網貸平臺和信貸（NASDAQ：HX）智能風控系統"凌風"完成了系統架構升級，採用全新分佈式Hadoop架構，與原系統相比進件處理效率大幅提升。作為和信自主研發的智能風控系統，"凌風"升級分佈式Hadoop後，系統數據處理方式將從單線轉變為並行，不...

Hadoop 技術硬件數據庫 Storm 機器學習人工智能納斯達克 2019-06-19

學習分佈式系統需要怎樣的知識？

作者：@馬超Terminal鏈接：https://www.zhihu.com/question/23645117/answer/124708083我的 P...

MapReduce 分佈式計算 MySQL 機器學習技術大數據數據庫算法 Google PostgreSQL Spark 跳槽那些事兒 SQL 歷史文章藝術 2019-06-17

推薦中...