為什麼說HDFS是分佈式計算的存儲基石？

HDFS Hadoop 雲計算大數據中科院計算所培訓中心 2017-03-31

HDFS（Hadoop Distributed File System，Hadoop 分佈式文件系統）是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS 能提供高吞吐量的數據訪問，適合那些有著超大數據集（largedata set）的應用程序。

HDFS 的設計特點：

大數據文件：非常適合上T 級別的大文件或者一堆大數據文件的存儲。

文件分塊存儲：HDFS 將一個完整的大文件平均分塊存儲到不同計算機上，這樣讀取文件可以同時從多個主機取不同區塊的文件，多主機讀取比單主機讀取效率要高得多得多。

流式數據訪問：一次寫入多次讀寫，這種模式跟傳統文件不同，它不支持動態改變文件內容，而是要求讓文件一次寫入就不做變化，要變化也只能在文件末添加內容。

廉價硬件：HDFS 可以應用在普通PC 機上，這種機制能夠讓給一些公司用幾十臺廉價的計算機就可以撐起一個大數據集群。

硬件故障：HDFS 認為所有計算機都可能會出問題，為了防止某個主機失效讀取不到該主機的塊文件，它將同一個文件塊副本分配到其它某幾個主機上，如果其中一臺主機失效，可以迅速找另一塊副本取文件。

HDFS 的關鍵元素：

為什麼說HDFS是分佈式計算的存儲基石？

Block（塊）：將一個文件進行分塊，通常是64M。

NameNode（名稱節點）：保存整個文件系統的目錄信息、文件信息及分塊信息，這是由唯一臺主機專門保存，當然這臺主機如果出錯，NameNode 就失效了。在Hadoop 2.0 開始支持activity-standy（動態備份）模式，如果主NameNode 失效，啟動備用主機運行NameNode。

DataNode（數據節點）：分佈在廉價的計算機上，用於存儲Block 塊文件。

HDFS 基本特點：

為什麼說HDFS是分佈式計算的存儲基石？

對於整個集群有單一的命名空間。

數據一致性。適合一次寫入多次讀取的模型，客戶端在文件沒有被成功創建之前無法看到文件存在。

文件會被分割成多個文件塊，每個文件塊被分配存儲到數據節點上，而且根據配置會由複製文件塊來保證數據的安全性。

HDFS 三個重要角色

為什麼說HDFS是分佈式計算的存儲基石？

NameNode：分佈式文件系統中的管理者，主要負責管理文件系統的命名空間、集群配置信息和存儲塊的複製等。NameNode 會將文件系統的Meta-data（元數據）存儲在內存中，這些信息主要包括了文件信息、每一個文件對應的文件塊的信息和每一個文件塊在DataNode 的信息等。

DataNode：文件存儲的基本單元，它將Block 存儲在本地文件系統中，保存了Block 的Meta-data，同時週期性地將所有存在的Block 信息發送給NameNode。

Clien：需要獲取分佈式文件系統文件的應用程序。

HDFS 三個基本操作及交互關係

為什麼說HDFS是分佈式計算的存儲基石？

文件寫入：

Client 向NameNode 發起文件寫入的請求。
NameNode 根據文件大小和文件塊配置情況，返回給Client 它所管理部分DataNode 的信息。
Client 將文件劃分為多個Block，根據DataNode 的地址信息，按順序寫入到每一個DataNode 塊中。

文件讀取：

Client 向NameNode 發起文件讀取的請求。
NameNode 返回文件存儲的DataNode 的信息。
Client 讀取文件信息。

文件Block 複製：

NameNode 發現部分文件的Block 不符合最小複製數或者部分DataNode 失效。
通知DataNode 相互複製Block。
DataNode 開始直接相互複製。

相關推薦

'為什麼你的微信沒有開通微粒貸，可能是這三點'

"微信是一個規模超過10億的國民級應用，也是中國最受歡迎的社交軟件。當然了它除了是社交界的老大之外，在移動支付領域，它有著同樣的霸主地位，它是僅次於支付寶的第二大支付軟件。不過與常用的支付功能相比，微信的微粒貸可能很少使用。而支付寶的花唄、借唄我們卻是經常的使用。其實微粒貸...

微信芝麻信用移動支付支付寶信用卡騰訊QQ 信用記錄關愛日金融騰訊軟件大數據 2019-09-18

'為什麼說造電動汽車的特斯拉是一家數據公司'

"來源：汽車之心作者：葉方提到特斯拉，大家總會不自覺站成兩個陣營：一方將這家電動車公司捧上天；另一方則唱衰，認為它最終會被對手們幹掉。換句話說，特斯拉要麼一勞永逸改變汽車行業，要麼就會在不久的將來關張。不過，如果我們放下財務、競爭和Elon Musk這個神奇的存在，從理性...

特斯拉汽車電動汽車人工智能伊隆·馬斯克技術無人駕駛大數據算法電腦軟件數據庫機器學習人機交互硬件眾包石油雷達 2019-09-18

'利好達預期，大數據雲計算，明日鎖定兩隻票（300017）（300588）'

"過了個不錯的假期，皮一下！雖然節日接近尾聲，還是祝大家中秋佳節美美的，節後股票節節高升！九月行情已過半，從上半月市場整體表現看，不錯的開頭，滬指漲幅近5%，成功站上3000點關口，科技股、大金融、醫藥等輪動上漲，形勢一片大好。下半月，希望我的A股再接再厲，真正迎來金九行情...

大數據雲計算金融滬指海通證券數字貨幣石油我的第一部5G手機平安保險中國移動中威電子中信銀行歐洲中信建投證券黃金歐洲中央銀行無人機士蘭微中國人民銀行沙特阿拉伯 2019-09-18

'直到今天，終於明白了，騰訊為什麼要推“微信版花唄”？'

"9月12日，騰訊將上線微信版“花唄”在網絡上刷屏。根據相關媒體的爆料：騰訊內部正在孵化一款信用支付產品“分付”（暫定產品名稱）。繼螞蟻花唄、京東白條之後，“分付”代表騰訊系重新點燃了信用支付的戰火。將來用戶在使用微信支付時，或許可以使用“分付”先付款。哎呀，說白了這就是一...

騰訊微信金融芝麻信用移動互聯網社交網絡雲計算支付寶大數據京東商城馬雲信用卡 2019-09-18

'計算機專業已過時？這五大“計算機專業”人才缺口大，畢業就高薪'

"隨著我國社會的發展，在大背景的情況下，計算機專業已經成為了一個熱門的專業。在當前巨大的就業壓力形勢下，擁有一個好的專業，在就業方面顯然是更有優勢的，而計算機就是一個很有優勢的專業。然而在社會上卻是有一些言論說，計算機專業已經飽和，並且是過時了，那麼這些言論是真實的嗎？我們...

電腦信息安全人生第一份工作大數據人工智能雲計算軟件工程 PHP Java 2019-09-18

'關注 | 2019世界計算機大會，看看大咖們都在聊什麼？'

"“計算萬物湘約未來”9月10日2019世界計算機大會在長沙梅溪湖國際文化藝術中心隆重開幕在開幕式與主論壇上，中國科學院院士、中國人民解放軍軍事科學院院長楊學軍，諾貝爾經濟學獎獲得者芬恩·基德蘭德等17位來自計算、網絡技術等相關領域的著名專家、學者作主題演講。共同探討計算...

電腦技術網絡安全機器人操作系統芬恩·基德蘭德黑客人工智能軟件智能手機楊學軍大數據設計經濟湖南跳槽那些事兒中國電子科技集團物聯網人生第一份工作諾貝爾獎諾貝爾經濟學獎大學長沙國防科學技術大學金融文化習近平藝術 2019-09-18

'計算機行業最新季度投資策略報告：雲計算、自主可控、金融科技'

"（登陸未來智庫www.vzkoo.com「鏈接」獲取高端報告。）1.硬件行業增速回落，軟件行業維持景氣度1.1 受內外環境波動影響，硬件行業增速回落根據工信部數據，2019 年 1-6 月電子信息製造業呈現出低速增長態勢。1-6 月份，規模以上電子信息製造業增加值同比...

經濟電腦金融雲計算技術投資軟件硬件大數據人工智能 2019-09-17

'曾經數學只考10分的碼農，為什麼離職做了這款產品'

" 科技有溫度。文 | 張超你知道哪個省份的人最注重個人隱私嗎？你知道目前日常法律諮詢中，什麼類型的諮詢佔比最多嗎？AI法律產品“包小黑”最近發佈了大數據統計，通過對幾十萬諮詢用戶的統計，發現目前安徽省的用戶最注重個人隱私，每萬人的涉隱私糾紛數是1.10件，在所有省份中排...

數學程序員人工智能技術法律算法機器人大數據大學人生第一份工作杭州淘寶網阿里巴巴集團工程師萬物嚐鮮節農村摩托羅拉創業支付寶法制大連理工大學 2019-09-17

'華為拿什麼破解AI核心難題？'

"C114訊 9月16日早間消息（舒允文）OpenAI近期發佈的研究顯示，僅2012年以來，人們對於算力的需求增長六年就超過30萬倍，平均每年增長10倍，遠遠超過了摩爾定律的發展速度。作為AI的後入局者，面對AI算力需求的爆發式增長，華為大膽地提出要為業界提供“易獲取、用得...

人工智能華為公司技術雲計算英偉達詹姆斯·瓦特 GPU Google 自然語言處理列奧納多·達·芬奇移動互聯網硬件運營商物聯網納米技術英國電腦穿戴設備特斯拉汽車大數據設計算法交通無人駕駛中央處理器我的第一部5G手機 2019-09-17

'近9月砸20億！中國人壽再出手，逼近三次舉牌，暴漲60%！險資為什麼青睞這隻股票？'

"中國人壽繼續增持萬達信息(300168)的步伐仍未停歇。9月12日晚間，萬達信息披露稱，公司於當日收到持股5%以上股東國壽資產出具的其受託管理的中國人壽相關賬戶的增持情況告知函。告知函顯示，中國人壽以其委託國壽資產管理的“中國人壽保險股份有限公司—傳統—普通保險產品—00...

中國人壽保險萬達信息萬達集團投資人壽保險頭號大贏家| 理財大賽第二季深圳鳳凰人生第一份工作深圳證券交易所大數據雲計算 2019-09-16

'重慶為什麼叫重慶？'

"江北嘴全景圖/張坤琨你好，我是重慶。我是中國歷史文化名城，自古是兵家必爭之地、商賈爭佔之埠。現在，是中國西部唯一直轄市，正致力於推動高質量發展，創造高品質生活，打造“山清水秀美麗之地”。歷史上的我——我為什麼叫“重慶”？那可是有故事的。1189年，趙惇在此先封恭王，旋即...

重慶宋光宗抗日戰爭我在宮裡做廚師家住長江邊農村大數據重慶穿越之旅醫療保險蒙古交通經濟第二次世界大戰文化嘉陵江學前教育養老保險人工智能秦朝紅巖中國歷史騰訊物聯網 SK海力士 2019-09-16

'5G應用端重點關注VR/AR、自動駕駛、IOT和雲計算（附金股）'

"1、VRAR5G應用端我們首先看好VR/AR產業鏈，5G和VR密不可分。2015年-2016年VR/AR大熱，成為消費電子的一個亮點，但是很快VR/AR的發展便遇到了困境。帶寬和延時的因素導致互動體驗不強和終端移動性差、分辨率和刷新率低等痛點問題，一直是遏制行業發展的最大...

雲計算我的第一部5G手機無人駕駛物聯網技術瀾起科技用友網絡大數據長信科技網絡安全電腦東方國信華為公司智能家居用友公司華東電腦通信 Wi-Fi 軟件人生第一份工作操作系統海康威視千方科技上海中科創達潤和軟件人工智能人臉識別漢得信息硬件語音識別技術北京君正蘇大維格設計 2019-09-16

'真正意義上算是雲計算的平臺有哪些？'

"雲計算平臺也稱為雲平臺，是指基於硬件資源和軟件資源的服務，提供計算、網絡和存儲能力。雲計算平臺可以劃分為3類：以數據存儲為主的存儲型雲平臺，以數據處理為主的計算型雲平臺以及計算和數據存儲處理兼顧的綜合雲計算平臺。那麼目前真正意義上算是雲計算的平臺有哪些呢？千鋒廣州雲計算老...

IaaS 雲計算技術 MongoDB 數據庫 Amazon EC2 軟件 Google SimpleDB Java GFS Linux Python BigTable Azure VMware 硬件亞馬遜公司 MapReduce Hadoop EMC IBM 2019-09-15

'為什麼SQL正在擊敗NoSQL，這對未來的數據意味著什麼'

"導讀：經過多年的沉寂之後，今天的SQL正在復出。緣由如何？這對數據社區有什麼影響？看看本文的分析。以下為譯文。自從可以利用計算機做事以來，我們一直在收集的數據以指數級的速度在增長，因此對於數據存儲、處理和分析技術的要求也越來越高。在過去的十年裡，由於SQL無法滿足這些要求...

SQL NoSQL Microsoft SQL Server 數據庫軟件技術 Azure 電腦 PostgreSQL MySQL BigTable MongoDB Hadoop Google MapReduce 亞馬遜公司 Cassandra Spark 工程師 IBM 編程語言 Aurora 程序設計人生第一份工作讀書可視化技術歷史數學 2019-09-14

'為什麼頂級企業都不賺錢卻很值錢？'

"為什麼谷歌花費大量金錢人力開發的搜索引擎可以讓人們免費使用？為什麼騰訊發明創造的微信，可以免費讓人使用？為什麼我們現在生活當中很多這種軟件都是功能齊全，都可以讓人免費永久的使用？如果我們用傳統的商業思維去想這些問題，你肯定會萬分困惑。【1】全球最大的搜索引擎骨科，是最早推...

Google 網景搜索引擎 360手機衛士軟件 360安全瀏覽器瀏覽器智能手機大數據技術免費軟件雅虎騰訊比爾·格羅斯奇虎360 電腦操作系統迪吉多 2019-09-14

'為什麼昆明是未來生活的最終目的地'

"根據世界衛生組織關於健康定義的人群來劃分，目前我國，70%的人處於亞健康狀態，15%的人處於疾病狀態，而且世衛組織數據也顯示，中國人均健康支出不足美國的5%，距離全球人均健康支出差距更大，僅為五分之一，此外網絡上流傳的一份《2018中國國民健康大數據》也顯示中國平均壽命僅...

昆明雲南上海亞健康世界衛生組織體育浙江省大數據中藥日本心血管病天津 2019-09-14

'浙大“何門”傳奇從研製浙江首臺計算機到投身數字經濟'

"何志均（右三）與第一屆人工智能方向的5位碩士研究生合影。大數據在雲端湧動，物聯網帶來無人工廠，人工智能滲入日常生活的各個領域……今天的浙江，全面實施數字經濟“一號工程”，努力打造“互聯網+”世界科創高地，數字信息技術正成為浙江發展的強大動能。鮮為人知的是，浙江數字信息科技...

浙江大學電腦潘雲鶴人工智能技術浙江省大數據設計雲計算移動支付大學錢塘江經濟物聯網寧靜 2019-09-13

'選擇另一半最看重的是什麼，珍愛網調研大數據為您解讀'

"愛情其實是具有功利性的，大多數時候伴侶的身上存在我們不具有的品質，又或者是我們所欣賞的。在這個世界上有的人總能成為最受異性歡迎的人，可有的人卻始終得不到異性的青睞。於是不少人都認為差異背後的真正原因是顏值問題，但根據我們的調查顯示顏值並非是原因所在，這與人們的主觀臆想大相...

珍愛網大數據戀愛不完美媽媽經濟原汁原味的德系SUV 2019-09-13

'內蒙古和林格爾新區：“中國雲谷”未來要為國家貢獻先進算力'

"中國經濟導報中國發展網林麗芳報道2019全國高性能計算學術年會剛剛在呼和浩特落下帷幕。年會所傳遞出的高性能計算領域的前沿動態，展示的最新科研成果，對承辦方和林格爾新區（下稱新區）而言，無疑是一次絕佳的外宣機會，又為同各機構和企業開展深度合作提供了平臺，從而為步入大數據...

和林格爾內蒙古超級計算機大數據雲計算呼和浩特人工智能技術運營商經濟羅青哲電腦中國電信中國移動軟件東方國信硬件 2019-09-13

'等華為麒麟990取得領先後，國內還有什麼企業能追趕華為並競爭？'

"前段時間在網上看了一張圖，說華為的實力是怎樣的，那麼華為到底有怎樣的競爭對手，一看發現真的好多，從通訊領域到雲端服務器領域再到大數據人工智能建設領域、消費終端領域等等產業，那麼在互聯網科技算是一個很龐大的企業了！那麼今天我們不多去聊華為這家企業的綜合競爭力，那既然標題寫的...

華為公司聯發科技高通技術中興通訊華為榮耀通信一加手機 OPPO 大數據小米科技雲計算阿里巴巴集團魅族科技人工智能步步高vivo 2019-09-13

推薦中...