Hadoop教程：所有你需要知道的Hadoop都在裡面了

Hadoop 大數據物聯網 GFS 未知的未來未知的未來 2017-10-04

如果你正在尋找學習Hadoop，你已經降落在完美的地方。在這個Hadoop教程博客中，您將以非常簡單的步驟學習基礎到高級Hadoop概念。或者，您可以通過我們的Hadoop專家視頻，討論Hadoop概念以及實際會話。尋找教程視頻請加大數據學習交流8群640193172。

在瞭解這個Hadoop教程博客的技術性之前，讓我開始一個有趣的故事，瞭解Hadoop如何進入畫面，為什麼它現在在行業中如此受歡迎。所以，這一切都從兩個人Mike Cafarella和Doug Cutting開始，他們正在建立一個可以索引10億頁面的搜索引擎系統。在研究之後，他們估計這樣一個系統將花費大約五十萬美元的硬件，每月運行成本為三萬美元，這是相當昂貴的。不過，他們很快意識到，他們的架構將無法在網絡上擺放數十億個網頁。

他們在2003年發表了一篇論文，其中描述了Google的分佈式文件系統（稱為GFS）的架構，該架構正在Google的生產中使用。現在，這篇關於GFS的論文被證明是他們正在尋找的內容，很快他們意識到，它將解決所有存儲大量文件的問題，這些文件是作為Web爬網和索引過程的一部分而生成的。後來在2004年，Google發表了另一篇文章，介紹了MapReduce到世界各地。最後，這兩篇論文導致了“ Hadoop ” 框架的基礎。Doug引用了Google對Hadoop框架開發的貢獻：

“Google將來會活幾年，併發送我們其餘的信息。”

所以，現在你會意識到Hadoop有多強大。但是，這裡出現的問題是，Hadoop如何提供如此巨大的功能？我會要求你與我承擔並相信我，所有的疑慮都會在你完成這個博客之後被清除。

在這個Hadoop教程博客中，我們將介紹以下主題：

o 什麼是大數據

o 大數據和Hadoop：餐廳類比

o 什麼是Hadoop

o Hadoop的作為一種解決方案

o Hadoop功能

o Hadoop核心組件

o Hadoop Last.fm案例研究

現在，在轉移到Hadoop之前，讓我們開始與大數據的討論，導致Hadoop的發展。

Hadoop教程：什麼是大數據？

你有沒有想過技術如何發展以滿足新興需求？例如，早些時候我們有固定電話，但現在我們已經轉移到智能手機。同樣，你們中有多少人記得90年代被廣泛使用的軟驅？這些軟盤驅動器已被硬盤替代，因為這些軟驅具有非常低的存儲容量和傳輸速度。因此，這使得軟盤驅動器不足以處理我們今天正在處理的數據量。事實上，現在我們可以在雲上存儲太字節數據，而不用擔心大小的限制。

現在，讓我們來談談有助於生成數據的各種驅動因素。

你聽說過IoT嗎 IoT將您的物理設備連接到互聯網，使其更加智能。如今，我們有智能空調，電視機等。您的智能空調不斷監控室內溫度和室外溫度，因此決定了房間的溫度。現在，為了做到這一點，它首先從互聯網收集房間外的溫度數據。它連續存儲從其傳感器接收到的數據。最後，在這兩個數據的幫助下，它推測了室溫所需的變化。現在想象一下，安裝在數萬個房屋的智能空調一年內將會產生多少數據。通過這一點，您可以瞭解IoT如何為大數據貢獻重要份額。

現在，讓我們來談談大數據的最大貢獻者，只不過是社交媒體。社交媒體實際上是大數據演進中最重要的因素之一，因為它提供了有關人們行為的信息。您可以查看下圖，瞭解每分鐘生成多少數據：

Hadoop教程：所有你需要知道的Hadoop都在裡面了

圖：Hadoop教程 - 社交媒體數據生成統計

除了生成數據的速率之外，第二個因素是這些數據集中缺少正確的格式或結構，從而使處理成為挑戰。

今天獲得HADOOP認證

Hadoop教程：大數據與Hadoop - 餐廳類比

讓我們比較一下餐館，瞭解與Big Data相關的問題，以及Hadoop如何解決這個問題。

鮑勃是一個打開了一家小餐館的商人。最初，在他的餐廳，他曾經每小時收到兩個訂單，他的餐廳裡有一個廚師，一個食物架，足以處理所有的訂單。

Hadoop教程：所有你需要知道的Hadoop都在裡面了

圖：Hadoop教程 - 傳統餐廳場景

現在讓我們將餐廳的例子與傳統的場景進行比較，傳統的情況是以穩定的速度生成數據，像RDBMS這樣的傳統系統能夠處理它，就像Bob的廚師一樣。在這裡，您可以將數據存儲與餐廳的食品架和傳統的加工單位與廚師聯繫，如上圖所示。

Hadoop教程：所有你需要知道的Hadoop都在裡面了

圖：Hadoop教程 - 傳統場景

幾個月後，Bob想到擴大業務，因此他開始接受網上訂單，並在餐廳的菜單上添加了更多的菜餚，以吸引更多的觀眾。由於這種轉型，他們收到訂單的速度上升到每小時10個令人震驚的數字，單身廚師很難應付目前的情況。意識到處理訂單的情況，鮑勃開始思考解決方案。

Hadoop教程：所有你需要知道的Hadoop都在裡面了

圖：Hadoop教程 - 分佈式處理場景

同樣，在大數據的情況下，由於引入了社交媒體，智能手機等各種數據增長驅動因素，數據開始以驚人的速度生成。現在，像Bob的餐廳一樣，傳統的系統效率還不夠高處理這個突然的變化。因此，需要一種不同的解決方案來應對這個問題。

經過大量的研究，鮑勃想出了一個解決方案，在那裡他再僱用了4名廚師來處理收到的鉅額訂單。一切進展順利，但這個解決方案又帶來了一個問題。由於四位廚師共享同一個食物架，食物架成為整個過程的瓶頸。因此，鮑勃思想的解決方案並不那麼有效。

Hadoop教程：所有你需要知道的Hadoop都在裡面了

我們在Hadoop生態系統博客中詳細討論了Hadoop生態系統及其組件。現在在這個Hadoop教程中，讓我們知道Last.fm如何使用Hadoop作為其解決策略的一部分。

Hadoop教程：Last.fm案例研究

Last.fm是成立於2002年的互聯網廣播和社區驅動的音樂發現服務。用戶向Last.fm服務器發送信息，指示他們正在收聽哪些歌曲。接收到的數據被處理和存儲，使得用戶可以以圖表的形式訪問它們。因此，Last.fm可以做出智能的品味和兼容性決定來產生建議。數據來自以下兩個來源之一：

· scrobble：當用戶播放自己選擇的曲目，並通過客戶端應用程序將信息發送給Last.fm。

· 收音機：當用戶調諧到Last.fm廣播電臺並流式傳輸歌曲時。

Last.fm應用程序允許用戶愛，跳過或禁止他們聽的每個軌道。該軌道監聽數據也被髮送到服務器。

· 每個月超過40M獨特訪問者和500M頁面瀏覽量

· Scrobble統計資料：

o 每秒最多可播放800首歌曲

o 每天超過4000萬的scrobbles

o 到目前為止，已有超過750億的scrobbles

· 電臺統計：

o 每月流量超過1000萬小時

o 每天超過40萬個獨特站

· 每個scrobble和radio收聽至少生成一條日誌行

Hadoop在Last.FM：

· 100個節點

· 每個節點8個核心（雙四核）

· 每個節點24GB內存

· 8TB（4盤4TB）

· Hive集成運行優化的SQL查詢進行分析

Last.FM於2006年開始使用Hadoop，因為用戶數量從數千人增長到數百萬。在Hadoop的幫助下，他們處理了數百種每日，每月和每週的工作，包括網站統計和指標，圖表生成（即跟蹤統計），元數據更正（例如藝術家拼寫錯誤），搜索索引，組合/格式化建議數據，數據洞察，評估和報告。這有助於Last.FM成長壯大，並找出用戶的口味，並根據他們開始推薦音樂。

我希望這個博客是信息豐富的，併為您的知識增值。在我們下一個關於Hadoop生態系統的博客中，我們將詳細討論Hadoop生態系統中存在的不同工具。

想了解更多大數據學習的知識點，請加大數據學習交流8群640193172，共同討論。

相關推薦

'阿里在職架構師推出了的一份Python學習清單，這一定是你最需要的'

"站在風口上，豬都能飛起來。人工智能風口，讓Pyhon這門膠水語言轉變成非常火的網紅語言。編程功力深厚的程序員花一兩個星期就能上手Python，而一些新手程序員花幾個月就可以上手。學編程，用Python確實是一個相當不錯的選擇。不過，面對Python網上有紛雜的資料，一些程...

Python MySQL 數據庫 Linux 程序員讀書 Django 面向對象程序編程 CSS HTML JavaScript MongoDB jQuery 人工智能編程語言算法硬件物聯網路由器操作系統 2019-09-16

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'刷臉支付和掃碼支付到底哪一個更安全？看完這篇文章你就知道了'

"文|杭州豐收收硬核科普文，在線聊刷臉大數據時代給商家的運營提供了便利，同時也造成了消費者們的顧慮。打開手機就收到了自己近期感興趣的相關推送，相比於感官上的驚喜，相信不少朋友還會有一絲顧慮，究竟是誰走漏了風聲？難道是肚子裡的蛔蟲成精了？顯然這口鍋蛔某不願意背，這只不過是大...

移動支付支付寶信息安全文章軟件杭州人工智能大數據技術蜻蜓 2019-09-10

'阿里巴巴程序員推出了的一份Linux 學習清單，這一定是你最需要的'

"第一階段Linux+搜索+hadoop體系Linux基礎→shell編程→高併發架構→lucene,solr搜索→hadoop體系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→項目實戰第二階段機器學習R語言→mahout...

Linux Spark 程序員 HDFS MapReduce Hadoop 大數據 HBase Storm 阿里巴巴集團 Java 工程師機器學習算法雲計算 Lucene Python Docker Hive 好好學習網絡硬盤 Solr 數據庫 R語言數據挖掘 2019-09-09

'聽說你的產品包裝已經夠好了？看完下面這些案例開始陷入沉思'

"產品包裝對於品牌的戰略升級意義重大，隨著社會的進步，消費的升級，你原本的包裝營銷策略可能已經過時，80，90後逐漸成為消費主力軍，如果你的包裝還是墨守成規不思進取，銷量平庸可能是必然！聽說你的產品包裝已經夠好了？瞧完下面這些包裝案例，或許你會有收穫大閘蟹包裝方案月餅包裝解...

設計市場營銷工業設計雲計算香水月餅茶蜂蜜中華絨螯蟹白酒大數據 2019-09-09

'關於上海自貿區臨港新片區，你需要知道的事'

"從2013年掛牌至今，上海自貿區已走過近6年的發展歷程。8月20日，中國（上海）自由貿易試驗區臨港新片區正式揭牌，首批13家企業獲頒最新營業執照。關於此次增設的新片區，你需要知道哪些事呢？這是8月20日拍攝的中國（上海）自由貿易試驗區臨港新片區管理委員會外景。新華社記者...

上海經濟金融小洋山投資人工智能無人駕駛技術能源大數據大治河法律交通我的第一部5G手機中國聯通 2019-09-07

'10.6億次播放！貴陽紅了，看完你就知道為什麼'

"據貴陽市統計局的統計數據顯示今年上半年，全市旅遊接待人數達 11830.81 萬人，同比增長 25.6%實現旅遊總收入 1614.54 億元同比增長 31.5%貴陽旅遊產業繼續保持快速增長抖音、頭條指數與清華大學國家形象傳播研究中心城市品牌研究室曾聯合發佈《短視頻與城市形...

貴陽貴州大數據漂流新華網科幻小說紅楓湖技術網絡安全深圳南江惠普公司經濟 2019-09-01

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'程序員朋友圈竟然曝光了最新編程教程，想學編程語言的你值得一看'

"機會，憑自己爭取。命運，靠自己把握。不知不覺吧，已經到了八月了，2019年又過了一大半了，芒果最新把這大半年的Java、Python、web前端、大數據、AI 學習資料整合起來，分享給需要的粉絲們。JavaJava是一門面向對象編程語言，不僅吸收了C++語言的各種優點，...

程序員編程語言 Python Java 網頁設計 C語言程序設計大數據設計技術人工智能 2019-08-25

'面試官：說說你知道多少種進程間的通信方式'

"前言進程間的通信方式，其實我們一直在用它，但是我們都不會去注意它。如果碰到面試官問你知道多少種進程間的通信方式，估計很多人都會有點懵。今天我們就來總結下進程間的通信方式有哪些。管道管道，英文為pipe。這是一個我們在學習Linux命令行的時候就會引入的一個很重要的概念。它...

通信 Linux MySQL 大數據數據結構 UNIX Nginx 2019-08-25

'面向未來的“超級食堂”，滿足你對工作餐的所有想象'

"美食讓循規蹈矩的生活不再千篇一律然而“中午吃什麼？”卻成了不少上班族每天最頭痛的事口感鮮美、價格實惠、選擇多樣、不用排隊……這些看似挑剔的要求“超級食堂”都能通通滿足品牌直供的安全食材，清新自然的用餐環境五星級別的用餐體驗，你，準備好了嘛？高顏值就餐空間嘉興智慧產業創新...

美食西餐烹飪技巧小吃人生第一份工作裝修甜品原汁原味的德系SUV 沙拉大數據 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'大生態數據系統領域發生了一件事情，你知道嗎？'

"全文共2737字，預計學習時長5分鐘圖片來源：pexels.com/@bertellifotografia近期，大生態數據系統領域發生了一件事情：思科(Cisco)將人工智能硬件框架與一個由八個GPU驅動的新型深度學習服務器相結合。Wikibon首席分析師James Ko...

人工智能軟件技術 DevOps 電腦 Google 雲計算思科系統 Spark 無人駕駛開源軟件 Azure Hadoop 硬件 GPU Apache 算法語音識別技術 HDFS 人生第一份工作人臉識別中央處理器 2019-08-14

'40歲的雷軍，悟到了成功需要順勢而為。華為告訴你2025年的勢在哪'

"雷軍曾經說過，要想成功，光靠聰明的大腦和勤奮努力是遠遠不夠的，因為聰明和努力的人很多，你做到了，並不一定會成功。在他40歲的時候，他真正領悟到了一個道理，只有在風口上順勢而為，才容易成功。雷軍在一次訪談中說，很多做互聯網的朋友說雷軍這個人不行，戰略能力差了點。但他很不服氣...

雷軍華為公司技術機器人我的第一部5G手機人工智能雲計算經濟大數據微軟跳槽那些事兒科技向善萬家團圓軟件物聯網小米科技文化 2019-08-12

'商標侵權糾紛，你需要知道的七大熱點問題'

"商標侵權糾紛，你需要知道的七大熱點問題，近三年的商標權案件，將當事人最愛提出的幾個常見高頻問題整理了一下，今天筆者將採用當下最時髦的“大數據分析”方式，逐一解答這類常見的關於商標侵權糾紛的問題。通過這些問題在以後進行商標註冊時才知道要如何防範商標侵權行為一、大數據樣本概況...

大數據可視化技術法律知識產權 2019-08-10

'嚴重提醒！騙子都用上人工智能技術了！你卻連入門都還不知道？'

"近幾日，詐騙手法不斷翻新，花樣百出讓我們防不勝防，甚至，有些騙子已經用起了AI技術，真是嚇掉了小編的24K金牙……小編挖了挖全網資料，收集整理主要有以下4種：1、盜取微信號，AI技術轉發微信語音，詐騙2、提取聲音，合成聲音，偽造聲音，詐騙3、盜取視頻通話信息，AI換臉，實...

人工智能技術大數據 Java 網絡安全 Python 腳本語言物聯網歷史 2019-08-10

'日本的精緻農業“精”在何處？看完這十點你就知道了'

"精緻，是一種做人的風格，也是一種做事的習慣。有時甚至會成為一個族群的性格，或一個國家的文化精神。今天我們來說說日本的精緻農業，以及10點做精緻農業的小訣竅！我們先來簡單瞭解下日本的精緻農業。日本屬於島國，土壤貧乏，平原面積狹小，耕地十分有限，人口生理密度高達2924人/平...

農業日本農產品清酒農民小麥物聯網技術種植業經濟農村歷史市場營銷西紅柿花草莓文化和牛 2019-08-09

'零基礎Hadoop學習之路你必須要知道的一些知識點'

"零基礎學Hadoop你必須要知道的一些知識點，在學習編程的路上，都沒有那麼容易的事情，畢竟成為一個優秀的程序員沒有數年之功，是很難成功的。章目錄:一、理論知識1.Hadoop的整體印象2.Hadoop的優勢3.Hadoop可以做什麼4.Hadoop結構4.1 Hadoop...

Hadoop HDFS MapReduce 軟件 Lucene 程序員 Linux Java MySQL 大數據 Spark Apache 分佈式計算數據庫電腦機器學習酷狗音樂搜索引擎設計 2019-08-08

'除了Iaas、Paas、Saas 你還需要知道這些'

"1. CaaSCommunications-as-a-Service通訊即服務(也可稱為協作即服務)。CaaS是將傳統電信的能力如消息、語音、視頻、會議、通信協同等封裝成API(Application Programming Interface，應用軟件編程接口)或者SD...

IaaS SaaS 軟件物聯網技術防火牆電信通信硬件雲計算路由器 2019-08-04

'你只知道華為發佈了5G手機，卻不知道連5G基站他都賣'

"5G時代，我們可以把“網”帶著走啦！7月29日，華為終端官方微博宣佈，華為5G智能路由器5G CPE Pro正式發售，售價2499元。儘管這款產品的關注度不及5G手機，但是實際上它在5G時代的意義遠大於手機。5G CPE究竟是什麼？CPE，英文全稱為Customer Pr...

我的第一部5G手機華為公司路由器 Wi-Fi 智能路由器硬件智能家居中國移動無人駕駛大數據算法經濟 2019-08-02

推薦中...