hadoop輝煌還能延續多久?Hadoop使用量正在增加

Hadoop 大數據 MapReduce Java ITStar ITStar 2017-08-27

hadoop輝煌還能延續多久?Hadoop使用量正在增加

數據山如何變成信息的金礦

當Google在2001年推出圖像搜索功能時,它的索引圖像達到2.5億。 不到十年後,搜索巨頭已經索引了超過100億張圖片。 每分鐘上傳YouTube的內容已有三十五小時。 據說Twitter每天平均有5500萬條推文。 今年早些時候,其搜索功能每天記錄6億次查詢。 這就是我們談論大數據時的意思。

如此大規模的數據曾經侷限於大型公司,大學和政府 - 能夠購買昂貴的超級計算機的實體和員工保持運行。 今天,隨著存儲成本的降低和處理能力的商品化,小公司和一些個人開始存儲和挖掘相同的數據,促成了應用創新浪潮。

hadoop輝煌還能延續多久?Hadoop使用量正在增加

大數據革命的啟用技術之一是MapReduce,它是由Google開發的用於處理大規模分佈式數據集的編程模型和實現。 在本文中,我介紹了Apache的開源MapReduce實現,Hadoop,其中有些稱為雲計算的殺手級應用程序。

關於Hadoop

Apache的Hadoop框架本質上是一個分析巨大數據集的機制,不一定需要安裝在數據存儲區中。Hadoop引用了MapReduce的大量數據分析引擎,使開發人員更易於訪問。Hadoop可擴展到無數節點,可以處理與數據排序相關的所有活動和協調。

hadoop輝煌還能延續多久?Hadoop使用量正在增加

Hadoop的功能和配置過多使其成為一個非常有用和強大的框架。雅虎 並且無數的其他組織已經發現它是分析位和字節山的有效機制。 Hadoop也很容易在單個節點上工作; 所有你需要的是一些數據來分析和熟悉Java代碼,包括泛型。 Hadoop也適用於Ruby,Python和C ++。

作為處理巨大數據集的概念框架,MapReduce針對使用大量計算機的分佈式問題解決進行了高度優化。框架由其名稱所暗示的兩個功能組成。地圖功能被設計為採用較大的數據輸入並將其分成較小的塊,然後將其分配給可以與其進行任何操作的其他進程。縮減功能摘要通過地圖收集的個人答案,並將其呈現給最終輸出。

在Hadoop中,通過擴展Hadoop自己的基類來定義map和reduce實現。這些實現通過指定它們的配置以及輸入和輸出格式綁定在一起。 Hadoop非常適合處理包含結構化數據的大型文件。 Hadoop的一個特別方便的方面是處理輸入文件的原始解析,以便您可以一次處理一行。因此,定義一個地圖函數確實只是一個問題,即確定你想要從一行文本中獲取什麼。

數據,無所不在的數據!

hadoop輝煌還能延續多久?Hadoop使用量正在增加

美國政府生產大量數據,這對普通公民來說很重要。 各政府機構自由分發有關美國經濟健康和社會人口變化的數據。 美國地質調查局(USGS)出版國際地震資料。

世界各地每天都發生多次小地震。 他們大多數發生在地殼深處,所以沒有人覺得他們,但聽臺記錄他們。USGS以每週CSV(或逗號分隔值)文件的形式發佈其地震數據。

平均每週檔案不是很大——只有約100KB左右。不過,它將作為學習Hadoop的基礎。記住,Hadoop能夠處理更大的數據集。

相關推薦

推薦中...