大數據和Hadoop：簡介

Hadoop 大數據 MapReduce 技術 IBM Apache 雲計算 Hortonworks 算法工程師愛碼農 2019-05-18

在這篇文章中，工程師提供了大數據和Apache Hadoop世界的入門級外觀。如果您對這項技術不熟悉或只是想要複習，請繼續閱讀！

一個非常常見的誤解是大數據是一些技術或工具。實際上，大數據是一個非常大的異構數據集。這些數據更多地採用非結構化或半結構化形式，因此提取有用信息非常困難。隨著雲技術的發展，數據的生成速度也大大增加。

因此，我們需要一種解決方案，使我們能夠以最佳速度處理此類“大數據”，並且不會影響數據安全性。有一組技術可以解決這個問題，其中最好的技術是Hadoop。

“Hadoop如何為大數據問題提供解決方案？” 這是一個常見的問題。答案是：

Hadoop使用數據在多個系統節點上而不是在一臺機器上的塊中存儲數據。這允許分離關注點，容錯和增加數據安全性。
在將數據存儲在其中之前不需要定義的模式。RDBMS系統的一個主要缺點是它適用於預定義的模式結構，這種模式結構可以靈活地遠離用戶來存儲不同類型的數據。
Hadoop的另一個特點是它為用戶帶來了處理能力。在Hadoop中，處理器被用於數據而不是從一個系統傳送到另一個系統的數據。由於存在分佈式體系結構，因此最終用戶可以靈活地增加任意數量的節點。

這一切都有助於Hadoop成為可靠，經濟（RAID比本地節點更昂貴），可擴展且靈活的系統。

Hadoop由兩個主要組件組成，即節點和資源管理器。

節點（名稱節點和數據節點）：
名稱節點充當主節點，幷包含在數據節點上處理的所有元數據。通常，系統中只有一個名稱節點，但可以根據您的要求增加其編號。數據節點是實際處理髮生的真實站點工作者。這裡，數據駐留並在處理後存儲。名稱節點僅包含數據節點的映射和一大塊數據。
資源管理器（MapReduce和YARN）：
資源管理器包含處理數據所需的算法。這是Hadoop的核心，其中編寫了用於處理的業務邏輯。
MapReduce包含兩個作業，即map和reduce。“'Map'是指獲取一組數據並將其轉換為另一組數據，其中各個元素被分解為鍵/值對。'Reduce'是指將地圖輸出作為輸入並組合這些數據元組進入一組較小的元組。“（來源：關於MapReduce的IBM頁面這裡要注意的重要一點是減少作業總是在地圖作業之後執行。另一個可以與MapReduce一起使用或作為獨立資源使用的資源管理器是YARN。YARN代表Yet Another Resource Negotiator，是一種資源管理和作業調度技術。IBM在其文章中提到，“根據雅虎的說法，這種設計的實際限制是通過5000個節點的集群和40,000個同時運行的任務來實現的。” 除了這種限制之外，計算資源的利用在MRV1中是低效的。此外，Hadoop框架僅限於MapReduce處理範例。根據Hortonworks的說法，“YARN還將Hadoop的強大功能擴展到數據中心內的現有技術和新技術，以便他們可以利用經濟高效的線性規模存儲和處理。” 它為ISV和開發人員提供了一個用於編寫在Hadoop中運行的數據訪問應用程序的一致框架。YARN解除了MapReduce的資源管理和作業調度。YARN開始為Hadoop提供在Hadoop框架內運行非MapReduce作業的能力。

相關推薦

'《幽靈行動：斷點》b測大數據出爐玩家累計滅敵123億'

"育碧旗下新作《幽靈行動：斷點（Tom Clancys Ghost Recon: Breakpoint）》在9月5日至9月9日期間進行了Beta測試，今天育碧官方公開了這次Beta測試的大數據統計圖，為玩家統計了遊戲中各種道具、槍械、殺敵數等。一起來看看吧。在這次測試期間共...

幽靈行動育碧軟件大數據 PlayStation Xbox Xbox One 2019-09-19

'大西安樓市版圖“一路向西”商品房均價近兩萬能否支撐灃西新城發展？'

"今年以來，多個純新盤接二連三亮相灃西新城，且開盤去化率居高不下。灃西新城何以在這場樓市的競爭中脫穎而出，其“西引力”法則有哪些？雖然灃西新城人才智力匯聚、生態環境不斷提升、地鐵路網逐步實現，但畢竟與西安主城區還是有距離，而均價近2萬元的房價能否匹配區域發展？灃西新城能成為...

西安想象偉大的一平方公里咸陽西安交通大學技術經濟渭河文化投資陝西大數據創業興平市秦嶺第二十二屆中國農加工投洽會物聯網區塊鏈大學終南山絲綢之路 2019-09-19

'成都房價下跌誰先帶頭，3大數據判斷樓市現狀'

"點右上關注，獲得更多樓市信息與房價數據下面是幾篇閱讀量近100萬，收藏率、轉發率最高的文章，值得一看：房產過戶給子女的6種方法，注意其中的隱患，一不小心多付20%樓市風險多：買房交首付時9大注意事項，不能簽字交錢就完事樓市實戰：買房後悔時，七大方法幫你退回房子定金。附法律...

成都二手房大數據購房投資雙流 2019-09-19

'明日方舟：下期哪個六星會UP？黃票商店會進誰？大數據分析'

"又到了每個月最喜歡的猜池子的時間了！現在就讓我們用大數據，以及最嚴密的邏輯推理一下下期池子。然後再被鷹角毫無邏輯的幹員UP打臉...六星幹員的UP預測為了用大數據說話，先讓我們統計一下近期UP的幹員。六星幹員：銀灰、夜鶯的上一次UP要追溯到7月11日，已經足足九個池子沒見...

大數據夜鶯德克薩斯環境汙染 2019-09-19

'區塊鏈數據溯源是什麼意思？能解決哪些問題？'

"未來世界是數字化社會，人類工作生活的一切痕跡都會在數據端被架構被重新認知。採集數據，解析數據，引導數據便成了一項核心工作。“物聯網+區塊鏈”技術，會將世界變得更加透明，讓更多的人看到並能追求自己的價值。沃爾頓鏈，因此孕育而生。他的願景是，立足數據，溯源真實，讓世界更陽光。...

區塊鏈技術 IBM 物聯網硬件數據庫人生第一份工作跳槽那些事兒食品安全軟件微軟施耐德電氣平安保險大眾汽車我的第一部5G手機思科系統投資 2019-09-19

'比特大陸發新雲端AI推理芯片！海康陳宗年點出城市大腦兩大陷阱'

"芯潮（ID：aichip001）文 | 心緣芯潮9月17日福州報道，今天上午，比特大陸預告已久的第三代雲端AI推理芯片BM1684終於來了！該芯片採用臺積電12nm工藝製程，Winograd卷積加速下INT8算力可達35.2TOPS ，典型功耗僅16W，為視頻結構化和加...

人工智能技術算法雲計算臺灣積體電路製造公司雷州福州軟件海康威視深度學習大數據設計編譯器經濟 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'4.7萬億！《2019中國餐飲大數據白皮書》出爐透露了這十大機會點'

"在日前舉行的第二十屆中國美食節新聞通氣會上，中國飯店協會會長韓明介紹，今年1月份至7月份，全國餐飲業收入為24937億元，同比增長9.4%。預計全年消費規模將達4.7萬億元。那麼，對於食材企業而言，其中有哪些機會？結合中國飯店協會會長韓明的介紹以及2019中國餐飲大數據白...

快餐中式快餐大數據經濟美食博覽會投資關愛吃貨成長協會 2019-09-19

'如何找對人、選好貨、鋪對場？尼爾森快消零售大數據揭開真相'

"中國商報/中國商網（記者張濤）9月17日，尼爾森發佈了《揭祕高能市場：尼爾森中國城市快消零售大數據報告(2019)》。該報告彙集消費者、門店、地理特徵、產品及銷量等超過3萬個數據標籤，實現米級人貨場數據的立體融通。尼爾森表示，報告旨在幫助品牌商和零售商以最快速度瞭解市場...

大數據黃金技術 2019-09-18

'好的發動機，拼的從來都不是賬面數據'

"動力引擎系統的重要性不言而喻，對於普羅大眾用戶來說，對發動機的瞭解更多的會停留在賬面數據階段，對比馬力、扭矩、變速箱擋位數量以及工信部油耗表現，初步判斷出車輛的優劣與否。不可否認，在上一個五年中，更多的人評定車輛優劣的方式大同小異，都是看賬面數據。賬面數據無用，買車千萬不...

BMW 奔馳工程師 2019-09-18

'茲威考工廠，大眾電動化未來的榮枯將從此啟幕'

"、大眾茲威考工廠將成為世界上第一家從內燃機汽車無縫切換到電動汽車的汽車工廠六個月前，大眾汽車位於德國東部的茲威考（Zwickau）工廠有了新“鄰居”，幾十座集裝箱式模塊房空降該工廠的組裝大廳周邊。它們與其他時髦的工廠形成鮮明對比，但是，這家汽車製造商正在裡面開創一片新天...

大眾汽車電動汽車德國汽車原汁原味的德系SUV 服裝技術工程師跳槽那些事兒投資機器人奧迪設計芬蘭特斯拉汽車 BMW 歐洲經濟音箱人生第一份工作萊比錫 2019-09-18

'讓人遺憾！阿根廷輸球無緣世界盃冠軍兩大數據表現太差了'

"北京時間9月15日晚上，男籃世界盃決賽打響，阿根廷隊迎戰西班牙隊，經過四節比賽的激戰，阿根廷隊遺憾75-95輸給西班牙隊無緣冠軍，本場比賽阿根廷輸球可以說是輸在了自己的天生短板跟臨場發揮了，球隊兩大方面的表現表現有點糟糕！說阿根廷輸給了天生的短板，是因為球隊陣容的短板，那...

世界盃足球賽阿根廷西班牙大數據路易斯·斯科拉籃球的夏天越投入越精彩 2019-09-18

'為什麼說造電動汽車的特斯拉是一家數據公司'

"來源：汽車之心作者：葉方提到特斯拉，大家總會不自覺站成兩個陣營：一方將這家電動車公司捧上天；另一方則唱衰，認為它最終會被對手們幹掉。換句話說，特斯拉要麼一勞永逸改變汽車行業，要麼就會在不久的將來關張。不過，如果我們放下財務、競爭和Elon Musk這個神奇的存在，從理性...

特斯拉汽車電動汽車人工智能伊隆·馬斯克技術無人駕駛大數據算法電腦軟件數據庫機器學習人機交互硬件眾包石油雷達 2019-09-18

'優信李成彬：大數據助力二手車行業成長變革'

"優信集團業務產品中心總經理李成彬日前在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長李成彬表示，近幾年行業變化巨大，以電商行業...

大數據二手車技術萬物嚐鮮節人生第一份工作京東商城 2019-09-18

'海盜遊戲《ATLAS》結合大數據制定新計劃，玩家50%時間在海上活動'

"作為全Steam最大的一款航海遊戲，海盜冒險生存遊戲《ATLAS》給我們帶來的第一直觀體驗就是規模宏偉，它有著4.5萬平方公里的地圖以及900多個小島嶼，而玩家則會在這款遊戲裡面和4萬個玩家一起作戰，感受由《ATLAS》帶來的真實海戰。然而最近《ATLAS》卻在分析玩家行...

大數據航海 Steam 生存遊戲 2019-09-18

'手遊大數據：川渝玩家偏愛棋牌？王者榮耀等MOBA遊戲用戶粘性最高'

"今天（9.17）國內移動互聯網大數據公司QuestMobile，發佈了2019手機遊戲行業半年報告。該報告從行業基本發展狀況、手遊玩家差異化特點、手遊流量以及遊戲推廣方式等多個方面用數據敘述了上半年國內手機遊戲行業內的一些情況。手遊行業收入增速擴大，活躍用戶規模呈現持續向...

網絡遊戲 Qwangzherongyao 大數據市場營銷廣東移動互聯網消除類遊戲四川人生第一份工作 2019-09-18

'淺析大數據技術及其行業產品'

"大數據，IT行業的又一次技術變革，大數據的浪潮洶湧而至，對國家治理、企業決策和個人生活都在產生深遠的影響，並將成為雲計算、物聯網之後信息技術產業領域又一重大創新變革。未來的十年將是一個“大數據”引領的智慧科技的時代、隨著社交網絡的逐漸成熟，移動帶寬迅速提升、雲計算、物聯網...

大數據技術數據庫數據挖掘 NoSQL 算法硬件設計雲計算物聯網 MapReduce 可視化技術投資 SQL GFS 人工智能風行網思科系統經濟歷史社交網絡 Google 2019-09-18

'“蓮蓉蛋黃”月餅銷量最好月餅大數據——銷量同比增52%'

"中新社北京9月12日電 (記者周銳)在中秋節來臨之際，月餅的銷售又一次成為熱門話題。京東大數據研究院日前披露了一份研究報告，展示了節前兩週京東平臺月餅銷售的相關情況。資料圖：上海民眾排隊購買鮮肉月餅。湯彥俊攝從總量上看，2019年中秋節前兩週全國月餅銷量是去年同期的1...

最圓不過中秋月蓮茸大數據蜜餞廣東糕點江蘇河北堅果芝麻豆沙上海奶黃湖北河南京東商城五仁浙江省安徽黑龍江省水果山東葡萄酒海鮮遼寧重慶福建酒貴州 2019-09-18

'市場 | 電力大數據如何服務社會？國網大數據中心促進數據增值變現落地應用'

"2019中國國際智能產業博覽會國家電網展區內，重慶市民劉華龍聚精會神地聽了工作人員講解，感慨地說：“之前與國家電網的接觸僅僅是買電，沒想到你們研發的產品還可以用來支撐政府決策，幫助中小企業解決融資難題。”國家電網有限公司在2019智博會上集中展示了57項泛在電力物聯網建設...

大數據經濟國家電網投資物聯網重慶金融能源數據挖掘人生第一份工作上海可視化技術算法南京安徽 2019-09-18

'計算機專業已過時？這五大“計算機專業”人才缺口大，畢業就高薪'

"隨著我國社會的發展，在大背景的情況下，計算機專業已經成為了一個熱門的專業。在當前巨大的就業壓力形勢下，擁有一個好的專業，在就業方面顯然是更有優勢的，而計算機就是一個很有優勢的專業。然而在社會上卻是有一些言論說，計算機專業已經飽和，並且是過時了，那麼這些言論是真實的嗎？我們...

電腦信息安全人生第一份工作大數據人工智能雲計算軟件工程 PHP Java 2019-09-18

推薦中...