在這篇文章中,工程師提供了大數據和Apache Hadoop世界的入門級外觀。如果您對這項技術不熟悉或只是想要複習,請繼續閱讀!
一個非常常見的誤解是大數據是一些技術或工具。實際上,大數據是一個非常大的異構數據集。這些數據更多地採用非結構化或半結構化形式,因此提取有用信息非常困難。隨著雲技術的發展,數據的生成速度也大大增加。
因此,我們需要一種解決方案,使我們能夠以最佳速度處理此類“大數據”,並且不會影響數據安全性。有一組技術可以解決這個問題,其中最好的技術是Hadoop。
“Hadoop如何為大數據問題提供解決方案?” 這是一個常見的問題。答案是:
- Hadoop使用數據在多個系統節點上而不是在一臺機器上的塊中存儲數據。這允許分離關注點,容錯和增加數據安全性。
- 在將數據存儲在其中之前不需要定義的模式。RDBMS系統的一個主要缺點是它適用於預定義的模式結構,這種模式結構可以靈活地遠離用戶來存儲不同類型的數據。
- Hadoop的另一個特點是它為用戶帶來了處理能力。在Hadoop中,處理器被用於數據而不是從一個系統傳送到另一個系統的數據。由於存在分佈式體系結構,因此最終用戶可以靈活地增加任意數量的節點。
這一切都有助於Hadoop成為可靠,經濟(RAID比本地節點更昂貴),可擴展且靈活的系統。
Hadoop由兩個主要組件組成,即節點和資源管理器。
- 節點(名稱節點和數據節點):
- 名稱節點充當主節點,幷包含在數據節點上處理的所有元數據。通常,系統中只有一個名稱節點,但可以根據您的要求增加其編號。數據節點是實際處理髮生的真實站點工作者。這裡,數據駐留並在處理後存儲。名稱節點僅包含數據節點的映射和一大塊數據。
- 資源管理器(MapReduce和YARN):
- 資源管理器包含處理數據所需的算法。這是Hadoop的核心,其中編寫了用於處理的業務邏輯。
- MapReduce包含兩個作業,即map和reduce。“'Map'是指獲取一組數據並將其轉換為另一組數據,其中各個元素被分解為鍵/值對。'Reduce'是指將地圖輸出作為輸入並組合這些數據元組進入一組較小的元組。“(來源: 關於MapReduce的IBM頁面這裡要注意的重要一點是減少作業總是在地圖作業之後執行。另一個可以與MapReduce一起使用或作為獨立資源使用的資源管理器是YARN。YARN代表Yet Another Resource Negotiator,是一種資源管理和作業調度技術。IBM在其文章中提到,“根據雅虎的說法,這種設計的實際限制是通過5000個節點的集群和40,000個同時運行的任務來實現的。” 除了這種限制之外,計算資源的利用在MRV1中是低效的。此外,Hadoop框架僅限於MapReduce處理範例。根據Hortonworks的說法,“YARN還將Hadoop的強大功能擴展到數據中心內的現有技術和新技術,以便他們可以利用經濟高效的線性規模存儲和處理。” 它為ISV和開發人員提供了一個用於編寫在Hadoop中運行的數據訪問應用程序的一致框架。YARN解除了MapReduce的資源管理和作業調度。YARN開始為Hadoop提供在Hadoop框架內運行非MapReduce作業的能力。
相關推薦
'《幽靈行動:斷點》b測大數據出爐 玩家累計滅敵123億'
"育碧旗下新作《幽靈行動:斷點(Tom Clancys Ghost Recon: Breakpoint)》在9月5日至9月9日期間進行了Beta測試,今天育碧官方公開了這次Beta測試的大數據統計圖,為玩家統計了遊戲中各種道具、槍械、殺敵數等。一起來看看吧。在這次測試期間共...
'明日方舟:下期哪個六星會UP?黃票商店會進誰?大數據分析'
"又到了每個月最喜歡的猜池子的時間了!現在就讓我們用大數據,以及最嚴密的邏輯推理一下下期池子。然後再被鷹角毫無邏輯的幹員UP打臉...六星幹員的UP預測為了用大數據說話,先讓我們統計一下近期UP的幹員。六星幹員:銀灰、夜鶯的上一次UP要追溯到7月11日,已經足足九個池子沒見...
'如何找對人、選好貨、鋪對場?尼爾森快消零售大數據揭開真相'
"中國商報/中國商網(記者 張濤)9月17日,尼爾森發佈了《揭祕高能市場:尼爾森中國城市快消零售大數據報告(2019)》。該報告彙集消費者、門店、地理特徵、產品及銷量等超過3萬個數據標籤,實現米級人貨場數據的立體融通。尼爾森表示,報告旨在幫助品牌商和零售商以最快速度瞭解市場...
'好的發動機,拼的從來都不是賬面數據'
"動力引擎系統的重要性不言而喻,對於普羅大眾用戶來說,對發動機的瞭解更多的會停留在賬面數據階段,對比馬力、扭矩、變速箱擋位數量以及工信部油耗表現,初步判斷出車輛的優劣與否。不可否認,在上一個五年中,更多的人評定車輛優劣的方式大同小異,都是看賬面數據。賬面數據無用,買車千萬不...
'海盜遊戲《ATLAS》結合大數據制定新計劃,玩家50%時間在海上活動'
"作為全Steam最大的一款航海遊戲,海盜冒險生存遊戲《ATLAS》給我們帶來的第一直觀體驗就是規模宏偉,它有著4.5萬平方公里的地圖以及900多個小島嶼,而玩家則會在這款遊戲裡面和4萬個玩家一起作戰,感受由《ATLAS》帶來的真實海戰。然而最近《ATLAS》卻在分析玩家行...
'手遊大數據:川渝玩家偏愛棋牌?王者榮耀等MOBA遊戲用戶粘性最高'
"今天(9.17)國內移動互聯網大數據公司QuestMobile,發佈了2019手機遊戲行業半年報告。該報告從行業基本發展狀況、手遊玩家差異化特點、手遊流量以及遊戲推廣方式等多個方面用數據敘述了上半年國內手機遊戲行業內的一些情況。手遊行業收入增速擴大,活躍用戶規模呈現持續向...
推薦中...