Hadoop系列002-從Hadoop框架討論大數據生態

大數據 Hadoop Hortonworks Cloudera Nutch 首席數據師 2018-12-18

從Hadoop框架討論大數據生態

1、Hadoop是什麼

1）Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構

2）主要解決，海量數據的存儲和海量數據的分析計算問題。

3）廣義上來說，HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

2、Hadoop發展歷史

1）Lucene–Doug Cutting開創的開源軟件，用java書寫代碼，實現與Google類似的全文搜索功能，它提供了全文檢索引擎的架構，包括完整的查詢引擎和索引引擎

2）2001年年底成為apache基金會的一個子項目

3）對於大數量的場景，Lucene面對與Google同樣的困難

4）學習和模仿Google解決這些問題的辦法：微型版Nutch

5）可以說Google是hadoop的思想之源(Google在大數據方面的三篇論文)

GFS —>HDFS

Map-Reduce —>MR

BigTable —>Hbase

6）2003-2004年，Google公開了部分GFS和Mapreduce思想的細節，以此為基礎Doug Cutting等人用了2年業餘時間實現了DFS和Mapreduce機制，使Nutch性能飆升

7）2005 年Hadoop 作為 Lucene的子項目 Nutch的一部分正式引入Apache基金會。2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項目中

8）名字來源於Doug Cutting兒子的玩具大象

9）Hadoop就此誕生並迅速發展，標誌這雲計算時代來臨

3、Hadoop三大發行版本

Apache、Cloudera、Hortonworks

1）Apache版本最原始（最基礎）的版本，對於入門學習最好。

2）Cloudera在大型互聯網企業中用的較多。

2008年成立的Cloudera是最早將Hadoop商用的公司，為合作伙伴提供Hadoop的商用解決方案，主要是包括支持、諮詢服務、培訓。

2009年Hadoop的創始人Doug Cutting也加盟Cloudera公司。Cloudera產品主要為CDH，Cloudera Manager，Cloudera Support

CDH是Cloudera的Hadoop發行版，完全開源，比Apache Hadoop在兼容性，安全性，穩定性上有所增強

Cloudera Manager是集群的軟件分發及管理監控平臺，可以在幾個小時內部署好一個Hadoop集群，並對集群的節點及服務進行實時監控。Cloudera Support即是對Hadoop的技術支持。

Cloudera的標價為每年每個節點4000美元。Cloudera開發並貢獻了可實時處理大數據的Impala項目。

3）Hortonworks文檔較好。

2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建。

公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協助雅虎開發Hadoop，貢獻了Hadoop80%的代碼。

雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。

Hortonworks的主打產品是Hortonworks Data Platform（HDP），也同樣是100%開源的產品，HDP除常見的項目外還包括了Ambari，一款開源的安裝和管理系統。需要大數據資料可以私信我

HCatalog，一個元數據管理系統，HCatalog現已集成到Facebook開源的Hive中。Hortonworks的Stinger開創性的極大的優化了Hive項目。Hortonworks為入門提供了一個非常好的，易於使用的沙盒。

Hortonworks開發了很多增強特性並提交至核心主幹，這使得Apache Hadoop能夠在包括Window Server和Windows Azure在內的microsoft Windows平臺上本地運行。定價以集群為基礎，每10個節點每年為12500美元。

4、Hadoop的優勢

1）高可靠性：因為Hadoop假設計算元素和存儲會出現故障，因為它維護多個工作數據副本，在出現故障時可以對失敗的節點重新分佈處理。

2）高擴展性：在集群間分配任務數據，可方便的擴展數以千計的節點。

3）高效性：在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。

4）高容錯性：自動保存多份副本數據，並且能夠自動將失敗的任務重新分配。

5、Hadoop組成

5.1 HDFS架構概述

1）NameNode（nn）：存儲文件的元數據，如文件名，文件目錄結構，文件屬性（生成時間、副本數、文件權限），以及每個文件的塊列表和塊所在的DataNode等。

2）DataNode(dn)：在本地文件系統存儲文件塊數據，以及塊數據的校驗和。

3）Secondary NameNode(2nn)：用來監控HDFS狀態的輔助後臺程序，每隔一段時間獲取HDFS元數據的快照。

5.2 YARN架構概述

1）ResourceManager(rm)：處理客戶端請求、啟動/監控ApplicationMaster、監控NodeManager、資源分配與調度。

2）NodeManager(nm)：單個節點上的資源管理、處理來自ResourceManager的命令、處理來自ApplicationMaster的命令。

3）ApplicationMaster：數據切分、為應用程序申請資源，並分配給內部任務、任務監控與容錯。

4）Container：對任務運行環境的抽象，封裝了CPU、內存等多維資源以及環境變量、啟動命令等任務運行相關的信息。

5.3 MapReduce架構概述

MapReduce將計算過程分為兩個階段：Map和Reduce

1）Map階段並行處理輸入數據

2）Reduce階段對Map結果進行彙總

6、大數據技術生態體系

7、推薦系統框架圖

相關推薦

'基於大數據的個性化推薦系統，實現原理及打造方案深度解析'

"隨著互聯網時代的發展和大數據時代的到來，人們逐漸從信息匱乏的時代走入了信息過載的時代。為了讓用戶從海量信息中高效地獲取自己所需的信息，推薦系統應運而生。推薦系統的主要任務就是聯繫用戶和信息，它一方面幫助用戶發現對自己有價值的信息，另一方面讓信息能夠展現在對它感興趣的用戶面...

推薦技術大數據技術百度搜索引擎噹噹網音樂人生第一份工作 2019-09-15

'藉助“大數據”烏拉特後旗公安局破獲系列網絡賭博案抓獲違法犯罪嫌疑人199名'

"正北方網訊（北方新報融媒體記者白忠義）截至9月9日，烏拉特後旗公安局藉助“大數據”分析研判，成功偵破利用網絡平臺建立微信群，以“麻將”“跌坑”“賣房卡”等形式，組織微信成員參與網絡賭博的案件，搗毀5個網絡賭博群體，抓獲違法犯罪嫌疑人199名。2018年8月22日，烏拉特...

烏拉特後旗大數據麻將巴彥淖爾內蒙古鄂爾多斯烏海市撲克刑法黑龍江省電子遊戲西安 2019-09-14

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'北斗導航系統明年全面建成將與5G大數據深度融合'

"日前，中國衛星導航與位置服務第八屆年會暨中國北斗應用大會今天在河南鄭州國際會展中心開幕。大會上，北斗導航系統相關負責人詳細闡述了北斗導航的規劃設計與目標。據悉，本次大會以“北斗服務全球融合創新應用”為主題，旨在推動北斗衛星導航系統的融合創新應用，進一步推廣“北斗+”應用模...

北斗衛星導航系統我的第一部5G手機大數據中關村在線人造衛星技術設計經濟河南這就是河南設計師讀書 2019-09-13

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'360發佈政企安全服務體系，周鴻禕要構建安全大生態'

"【城宇互聯】報道，推薦2019年9月3日，360集團在北京宣佈政企安全戰略進入3.0時代。同時，360企業安全集團新團隊首次亮相，併發布了最新的政企安全服務體系。360集團董事長兼CEO周鴻禕表示，3.0時代的360企業安全集團將執行以“共建、分享、賦能、投資” 的發展模...

360手機衛士周鴻禕網絡安全投資大數據技術設計瀏覽器雷達 360安全瀏覽器人工智能 2019-09-07

'護城河、風口、生態、大數據、雲計算、垂直領域、去中心化、長尾'

"今日繼續學習互聯網名詞：護城河、風口、生態、大數據、雲計算、垂直領域、去中心化、長尾效應名詞護城河：別人幹不了的活兒，但更多指以為別人幹不了的活兒護城河就像一個強大的威懾，使得敵人不敢進攻，裡面的首領也不獨佔。目前供應商的差異化與網絡效應的外部化程度之間的關係，形成了一個...

雲計算大數據移動互聯網投資體育軟件物聯網技術平板電腦蘋果公司 2019-09-06

'中國大數據智能化系列報告發布重慶智能化發展西部領先'

"8月26日下午，在重慶舉行的2019中國國際智能產業博會上，中國大數據智能化系列研究成果發佈。中國信息通信研究院編制的《中國智能化發展指數報告（2019）》、《中國大數據應用發展指數報告（2019）》、《中國5G應用發展白皮書（2019）》等四份報告在發佈會相繼發佈，報告...

大數據重慶我的第一部5G手機上海技術經濟廣東通信山東江蘇浙江省李穎 2019-08-30

'【BIRTV2019】廣電網絡參與國家大數據體系華南分平臺建設，為文化保護和傳承插上科技翅膀'

"關注「廣電獵酷」關注廣電科技來源：廣東廣電網絡近日，國家文化大數據體系華南分平臺建設戰略合作協議簽約儀式在北京舉行。廣東省委宣傳部文改辦主任楊鵬飛，廣東省廣播電視局副局長陳小銳，廣東廣電網絡公司董事長葉志容、總經理楊力，副總經理曾國歡、陳冀，北京玖揚文化總裁高凱等領導出...

大數據廣東文化廣電網絡雲計算技術人生第一份工作廣西楊力福建創作者來直播海南澳門 2019-08-28

'中國大數據智能化系列報告發布，重慶智能化發展領先成都、貴州'

"8月26日17點10分，中國大數據智能化系列研究成果發佈會在第二屆中國國際智能產業博會舉行，工業和信息化部信息化和軟件服務業司李穎巡視員，中國信息通信研究院院長劉多，重慶市經濟和信息化委員會總工程師趙剛，重慶市大數據應用發展管理局副局長李斌，中國信息通信研究院副總工程師史...

重慶大數據我的第一部5G手機上海通信經濟技術成都貴州江蘇廣東軟件山東浙江省李穎 2019-08-27

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'“互聯網+大數據”廣州農商銀行打造普惠小微新生態'

"過去普惠金融往往伴隨著風險高、收益低的“痛點”，如今隨著移動互聯網、大數據、人工智能、雲計算、區塊鏈技術等為代表的信息技術不斷突破，這些“痛點”也逐步得到解決，以金融科技、大數據應用為驅動因子的新模式正迅速形成，為銀行業發展普惠金融帶來了前所未有的“安全感”。但廣州農商銀...

銀行移動互聯網螞蟻金服大數據金融技術廣州雲計算普惠公司農村信用記錄關愛日中國人民銀行 2019-08-17

'大生態數據系統領域發生了一件事情，你知道嗎？'

"全文共2737字，預計學習時長5分鐘圖片來源：pexels.com/@bertellifotografia近期，大生態數據系統領域發生了一件事情：思科(Cisco)將人工智能硬件框架與一個由八個GPU驅動的新型深度學習服務器相結合。Wikibon首席分析師James Ko...

人工智能軟件技術 DevOps 電腦 Google 雲計算思科系統 Spark 無人駕駛開源軟件 Azure Hadoop 硬件 GPU Apache 算法語音識別技術 HDFS 人生第一份工作人臉識別中央處理器 2019-08-14

'大數據公司MapR被惠普企業收購，看重竟然不是Hadoop能力'

"本文作者│劉學習Fiyinghare傳言成真！大數據軟件公司MapR難以為繼，被惠普企業HPE收購。8月6日，惠普企業HPE宣佈將收購大數據基礎軟件企業、Hadoop 技術三大巨頭之一的MapR Technologies的資產。HPE表示，這次收購包括MapR的技術、知識...

Hadoop 大數據技術惠普618一戰到底 Cloudera 人工智能軟件人生第一份工作知識產權 Hortonworks Apache 2019-08-14

'由Hadoop驅動的原始大數據時代已於2019年6月結束……'

"全文共3946字，預計學習時長8分鐘圖片來源：unsplash.com/@ev隨著當下的重點從收集數據轉向實時處理數據，大數據時代正走向消亡。如今大數據是種商業資產，為即將到來的多雲支持、機器學習和實時分析時代奠定基礎。原始大數據時代終結於2019年6月5日，這一天，湯姆...

Hadoop 大數據數據庫 Cloudera Hortonworks 機器學習技術 Google NoSQL EMC Hive Apache Spark 2019-08-13

'崛起的超級智能十問之三，物聯網、雲計算、AI、大數據是什麼關係'

"《崛起的超級智能：互聯網大腦如何影響科技未來》2019年7月由中信出版社出版，劉鋒著，這本書受到包括張亞勤，劉慈欣、周鴻禕、王飛躍，約翰.翰茲在內的國內外著名專家、企業家的聯合推薦。關於這本書的創作起源，核心觀點，以及對產業究竟有什麼啟發意義，頭條科技對本書作者劉鋒進行了...

移動互聯網人工智能雲計算大數據物聯網中信出版社劉慈欣周鴻禕張亞勤劉鋒技術騰訊太陽系社交網絡 2019-08-12

'HPE收購MapR，以Hadoop供應商為首的大數據時代落幕'

"Hadoop三駕馬車之一的MapR陷入困境後終於有了著落，今年5月底MapR宣佈由於“業績極差”將被迫關閉公司，MapR給自己設定尋找資金的最後期限是7月3日，一個月後MapR被HPE收購。8月5日，HPE宣佈收購MapR的業務資產，收購金額未透露。本次交易包括MapR的...

Hadoop 大數據惠普公司人工智能技術跳槽那些事兒雲計算軟件 Docker 人生第一份工作 Cloudera 知識產權高德納集團 2019-08-12

'大數據生態系統又一次更新！集裝化成大趨勢'

人工智能大數據軟件技術 DevOps 電腦 Google 雲計算 Spark 開源軟件思科系統無人駕駛 Hadoop 算法 Azure GPU 語音識別技術 Apache 硬件 HDFS 人臉識別人生第一份工作中央處理器 2019-08-12

'Linux和大數據有什麼關係？怎麼學習Linux？'

"Linux是一種自由和開放源代碼的類Unix操作系統，以Unix為原型改造的，一個多用戶多任務的操作系統，任何人都可以修改其代碼和頁面，主要的目的就是為了不收商業化的限制，服務器部署在linux系統上會更加高效穩定、安全。嚴格來講，Linux只是操作系統內核本身，但通常採...

Linux UNIX 大數據操作系統 CentOS 雲計算腳本語言 Hadoop 開源軟件軟件 Spark 搜索引擎技術讀書 Nginx Bash Red Hat Enterprise Linux 2019-08-11

推薦中...