大數據和Hadoop:簡介

在這篇文章中,工程師提供了大數據和Apache Hadoop世界的入門級外觀。如果您對這項技術不熟悉或只是想要複習,請繼續閱讀!

一個非常常見的誤解是大數據是一些技術或工具。實際上,大數據是一個非常大的異構數據集。這些數據更多地採用非結構化或半結構化形式,因此提取有用信息非常困難。隨著雲技術的發展,數據的生成速度也大大增加。

大數據和Hadoop:簡介

因此,我們需要一種解決方案,使我們能夠以最佳速度處理此類“大數據”,並且不會影響數據安全性。有一組技術可以解決這個問題,其中最好的技術是Hadoop。

“Hadoop如何為大數據問題提供解決方案?” 這是一個常見的問題。答案是:

  • Hadoop使用數據在多個系統節點上而不是在一臺機器上的塊中存儲數據。這允許分離關注點,容錯和增加數據安全性。
  • 在將數據存儲在其中之前不需要定義的模式。RDBMS系統的一個主要缺點是它適用於預定義的模式結構,這種模式結構可以靈活地遠離用戶來存儲不同類型的數據。
  • Hadoop的另一個特點是它為用戶帶來了處理能力。在Hadoop中,處理器被用於數據而不是從一個系統傳送到另一個系統的數據。由於存在分佈式體系結構,因此最終用戶可以靈活地增加任意數量的節點。

這一切都有助於Hadoop成為可靠,經濟(RAID比本地節點更昂貴),可擴展且靈活的系統。

Hadoop由兩個主要組件組成,即節點和資源管理器。

  • 節點(名稱節點和數據節點):
  • 名稱節點充當主節點,幷包含在數據節點上處理的所有元數據。通常,系統中只有一個名稱節點,但可以根據您的要求增加其編號。數據節點是實際處理髮生的真實站點工作者。這裡,數據駐留並在處理後存儲。名稱節點僅包含數據節點的映射和一大塊數據。
  • 資源管理器(MapReduce和YARN):
  • 資源管理器包含處理數據所需的算法。這是Hadoop的核心,其中編寫了用於處理的業務邏輯。
  • MapReduce包含兩個作業,即map和reduce。“'Map'是指獲取一組數據並將其轉換為另一組數據,其中各個元素被分解為鍵/值對。'Reduce'是指將地圖輸出作為輸入並組合這些數據元組進入一組較小的元組。“(來源: 關於MapReduce的IBM頁面這裡要注意的重要一點是減少作業總是在地圖作業之後執行。另一個可以與MapReduce一起使用或作為獨立資源使用的資源管理器是YARN。YARN代表Yet Another Resource Negotiator,是一種資源管理和作業調度技術。IBM在其文章中提到,“根據雅虎的說法,這種設計的實際限制是通過5000個節點的集群和40,000個同時運行的任務來實現的。” 除了這種限制之外,計算資源的利用在MRV1中是低效的。此外,Hadoop框架僅限於MapReduce處理範例。根據Hortonworks的說法,“YARN還將Hadoop的強大功能擴展到數據中心內的現有技術和新技術,以便他們可以利用經濟高效的線性規模存儲和處理。” 它為ISV和開發人員提供了一個用於編寫在Hadoop中運行的數據訪問應用程序的一致框架。YARN解除了MapReduce的資源管理和作業調度。YARN開始為Hadoop提供在Hadoop框架內運行非MapReduce作業的能力。

相關推薦

推薦中...