Hadoop教程:所有你需要知道的Hadoop都在裡面了

Hadoop 大數據 物聯網 GFS 未知的未來 未知的未來 2017-10-04

如果你正在尋找學習Hadoop,你已經降落在完美的地方。在這個Hadoop教程博客中,您將以非常簡單的步驟學習基礎到高級Hadoop概念。或者,您可以通過我們的Hadoop專家視頻,討論Hadoop概念以及實際會話。尋找教程視頻請加大數據學習交流8群640193172。

在瞭解這個Hadoop教程博客的技術性之前,讓我開始一個有趣的故事,瞭解Hadoop如何進入畫面,為什麼它現在在行業中如此受歡迎。所以,這一切都從兩個人Mike Cafarella和Doug Cutting開始,他們正在建立一個可以索引10億頁面的搜索引擎系統。在研究之後,他們估計這樣一個系統將花費大約五十萬美元的硬件,每月運行成本為三萬美元,這是相當昂貴的。不過,他們很快意識到,他們的架構將無法在網絡上擺放數十億個網頁。

他們在2003年發表了一篇論文,其中描述了Google的分佈式文件系統(稱為GFS)的架構,該架構正在Google的生產中使用。現在,這篇關於GFS的論文被證明是他們正在尋找的內容,很快他們意識到,它將解決所有存儲大量文件的問題,這些文件是作為Web爬網和索引過程的一部分而生成的。後來在2004年,Google發表了另一篇文章,介紹了MapReduce到世界各地。最後,這兩篇論文導致了“ Hadoop ” 框架的基礎。Doug引用了Google對Hadoop框架開發的貢獻:

“Google將來會活幾年,併發送我們其餘的信息。”

所以,現在你會意識到Hadoop有多強大。但是,這裡出現的問題是,Hadoop如何提供如此巨大的功能?我會要求你與我承擔並相信我,所有的疑慮都會在你完成這個博客之後被清除。

在這個Hadoop教程博客中,我們將介紹以下主題:

·

o 什麼是大數據

o 大數據和Hadoop:餐廳類比

o 什麼是Hadoop

o Hadoop的作為一種解決方案

o Hadoop功能

o Hadoop核心組件

o Hadoop Last.fm案例研究

現在,在轉移到Hadoop之前,讓我們開始與大數據的討論,導致Hadoop的發展。

Hadoop教程:什麼是大數據?

你有沒有想過技術如何發展以滿足新興需求?例如,早些時候我們有固定電話,但現在我們已經轉移到智能手機。同樣,你們中有多少人記得90年代被廣泛使用的軟驅?這些軟盤驅動器已被硬盤替代,因為這些軟驅具有非常低的存儲容量和傳輸速度。因此,這使得軟盤驅動器不足以處理我們今天正在處理的數據量。事實上,現在我們可以在雲上存儲太字節數據,而不用擔心大小的限制。

現在,讓我們來談談有助於生成數據的各種驅動因素。

你聽說過IoT嗎 IoT將您的物理設備連接到互聯網,使其更加智能。如今,我們有智能空調,電視機等。您的智能空調不斷監控室內溫度和室外溫度,因此決定了房間的溫度。現在,為了做到這一點,它首先從互聯網收集房間外的溫度數據。它連續存儲從其傳感器接收到的數據。最後,在這兩個數據的幫助下,它推測了室溫所需的變化。現在想象一下,安裝在數萬個房屋的智能空調一年內將會產生多少數據。通過這一點,您可以瞭解IoT如何為大數據貢獻重要份額。

現在,讓我們來談談大數據的最大貢獻者,只不過是社交媒體。社交媒體實際上是大數據演進中最重要的因素之一,因為它提供了有關人們行為的信息。您可以查看下圖,瞭解每分鐘生成多少數據:

Hadoop教程:所有你需要知道的Hadoop都在裡面了

圖:Hadoop教程 - 社交媒體數據生成統計

除了生成數據的速率之外,第二個因素是這些數據集中缺少正確的格式或結構,從而使處理成為挑戰。

今天獲得HADOOP認證

Hadoop教程:大據與Hadoop - 廳類

讓我們比較一下餐館,瞭解與Big Data相關的問題,以及Hadoop如何解決這個問題。

鮑勃是一個打開了一家小餐館的商人。最初,在他的餐廳,他曾經每小時收到兩個訂單,他的餐廳裡有一個廚師,一個食物架,足以處理所有的訂單。

Hadoop教程:所有你需要知道的Hadoop都在裡面了

圖:Hadoop教程 - 傳統餐廳場景

現在讓我們將餐廳的例子與傳統的場景進行比較,傳統的情況是以穩定的速度生成數據,像RDBMS這樣的傳統系統能夠處理它,就像Bob的廚師一樣。在這裡,您可以將數據存儲與餐廳的食品架和傳統的加工單位與廚師聯繫,如上圖所示。

Hadoop教程:所有你需要知道的Hadoop都在裡面了

圖:Hadoop教程 - 傳統場景

幾個月後,Bob想到擴大業務,因此他開始接受網上訂單,並在餐廳的菜單上添加了更多的菜餚,以吸引更多的觀眾。由於這種轉型,他們收到訂單的速度上升到每小時10個令人震驚的數字,單身廚師很難應付目前的情況。意識到處理訂單的情況,鮑勃開始思考解決方案。

Hadoop教程:所有你需要知道的Hadoop都在裡面了

圖:Hadoop教程 - 分佈式處理場景

同樣,在大數據的情況下,由於引入了社交媒體,智能手機等各種數據增長驅動因素,數據開始以驚人的速度生成。現在,像Bob的餐廳一樣,傳統的系統效率還不夠高處理這個突然的變化。因此,需要一種不同的解決方案來應對這個問題。

經過大量的研究,鮑勃想出了一個解決方案,在那裡他再僱用了4名廚師來處理收到的鉅額訂單。一切進展順利,但這個解決方案又帶來了一個問題。由於四位廚師共享同一個食物架,食物架成為整個過程的瓶頸。因此,鮑勃思想的解決方案並不那麼有效。

Hadoop教程:所有你需要知道的Hadoop都在裡面了

我們在Hadoop生態系統博客中詳細討論了Hadoop生態系統及其組件。現在在這個Hadoop教程中,讓我們知道Last.fm如何使用Hadoop作為其解決策略的一部分

Hadoop教程:Last.fm案例研究

Last.fm是成立於2002年的互聯網廣播和社區驅動的音樂發現服務。用戶向Last.fm服務器發送信息,指示他們正在收聽哪些歌曲。接收到的數據被處理和存儲,使得用戶可以以圖表的形式訪問它們。因此,Last.fm可以做出智能的品味和兼容性決定來產生建議。數據來自以下兩個來源之一:

· scrobble當用戶播放自己選擇的曲目,並通過客戶端應用程序將信息發送給Last.fm。

· 收音機當用戶調諧到Last.fm廣播電臺並流式傳輸歌曲時。

Last.fm應用程序允許用戶愛,跳過或禁止他們聽的每個軌道。該軌道監聽數據也被髮送到服務器。

· 每個月超過40M獨特訪問者和500M頁面瀏覽量

· Scrobble統計資料:

o 每秒最多可播放800首歌曲

o 每天超過4000萬的scrobbles

o 到目前為止,已有超過750億的scrobbles

· 電臺統計:

o 每月流量超過1000萬小時

o 每天超過40萬個獨特站

· 每個scrobble和radio收聽至少生成一條日誌行

Hadoop在Last.FM:

· 100個節點

· 每個節點8個核心(雙四核)

· 每個節點24GB內存

· 8TB(4盤4TB)

· Hive集成運行優化的SQL查詢進行分析

Last.FM於2006年開始使用Hadoop,因為用戶數量從數千人增長到數百萬。在Hadoop的幫助下,他們處理了數百種每日,每月和每週的工作,包括網站統計和指標,圖表生成(即跟蹤統計),元數據更正(例如藝術家拼寫錯誤),搜索索引,組合/格式化建議數據,數據洞察,評估和報告。這有助於Last.FM成長壯大,並找出用戶的口味,並根據他們開始推薦音樂。

我希望這個博客是信息豐富的,併為您的知識增值。在我們下一個關於Hadoop生態系統的博客中,我們將詳細討論Hadoop生態系統中存在的不同工具。

想了解更多大數據學習的知識點,請加大數據學習交流8群640193172,共同討論。

相關推薦

推薦中...