企業支出將達8億美元，Hadoop會成為最好的框架嗎？

Hadoop HDFS 雲計算大數據 IT168企業級 2017-06-02

知名調研機構弗雷斯特研究公司發現，Hadoop在過去三年的採用勢頭可謂空前高漲。2017年，公司企業在Hadoop軟件和相關服務方面的開支將達到8億美元。

但是與任何好運一樣，時代在變。而給Hadoop施加壓力的一大力量就是雲計算。弗雷斯特研究公司最近分析了雲計算給Hadoop帶來的影響，結果發現：

許多公司想要使用更多的公共雲來處理大數據。Hadoop不是為雲設計，所以廠商在紛紛讓Hadoop具有重要地位。與此同時，複雜性也提高了。

雲廠商在隱藏或者乾脆完全更換Hadoop。AWS Athena讓你可以針對大數據執行SQL查詢，不必為服務器實例而操心。DataBricks直接針對S3來使用Spark。IBM的平臺針對CloverSafe來使用Spark。

由於更多的公司厭煩Hadoop的本地複雜性，轉而使用公共雲，它們會期望改變雲端的Hadoop架構。這意味著，Hadoop廠商將開始看到其收入由本地轉向雲端。

討論問題：

1.什麼是Hadoop？

2.為什麼組織從傳統的數據倉庫工具轉移到基於Hadoop生態系統的智能數據中心？

3.更智能&更大的數據中心架構與傳統的數據倉庫架構有何不同？

4.相較Spark等5種大數據框架，基於Hadoop的數據中心的好處是什麼？

精彩回答：

Fantigcy：

1.什麼是Hadoop？

Hadoop是一個生態系統，Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

2.為什麼組織從傳統的數據倉庫工具轉移到基於Hadoop生態系統的智能數據中心？

顧名思義，這樣會更加智能，hadoop的框架設計比傳統數據倉庫工具要複雜，相對來說分析處理數據的過程速度更快更好，成本來說也要低。

3.更智能&更大的數據中心架構與傳統的數據倉庫架構有何不同？

Hadoop是一個生態系統，擁有15多種框架和工具，如Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala等，以便將數據攝入HDFS，在HDFS中轉移數據（即變換，豐富，聚合等），並查詢來自HDFS的數據用於商業智能和分析。某些工具（如Pig和Hive）是MapReduce上的抽象層，而Spark和Impala等其他工具則是來自MapReduce的改進架構/設計，用於顯著提高的延遲以支持近實時（即NRT）和實時處理。比起傳統ETL批處理更智能分析。

4.相較Spark等5種大數據框架，基於Hadoop的數據中心的好處是什麼？

隨著數據量和複雜性的增加，並行處理，內存密集型處理框架。基於Hadoop的解決方案不僅在商品硬件節點和開源工具方面更便宜，而且還可以通過將數據轉換卸載到Hadoop工具（如Spark和Impala）來補足數據倉庫解決方案，從而更高效地並行處理大數據。這也將釋放數據倉庫資源。更好的靈活性。通常業務需求的改變，也需要對架構和報告進行更改。基於Hadoop的解決方案不僅可以靈活地處理不斷髮展的模式，還可以處理來自不同來源，如社交媒體，應用程序日誌文件，image，PDF和文檔文件的半結構化和非結構化數據。甚者這裡面有些數據通常在數據倉庫中不可得。

東風玖哥：

1.什麼是Hadoop？

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。實現了HDFS，容錯性非常高，並且能在廉價硬件上部署，極適合超大數據集的項目。用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集群的威力進行高速運算和存儲。

2.為什麼組織從傳統的數據倉庫工具轉移到基於Hadoop生態系統的智能數據中心？

（1）高可靠性：Hadoop按位存儲和處理數據的能力值得人們信賴。

（2）高擴展性：Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

（3）高效性：Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

（4）高容錯性：Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

（5）低成本：與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

3.更智能&更大的數據中心架構與傳統的數據倉庫架構有何不同？

（1）面向大數據：數據中心架構的設計概念不同於傳統數據中心的集散控制系統。數據中心架構會提供優化快速的傳輸機制，海量數據的高度並行處理，讓大數據分析應用具備不同的特點。

（2）對任務的變化和適應：應用程序的資源使用的優先級

（3）智能管理：數據中心架構涉及到大量的硬件資源和高密度計算，需要更高的智能化管理

（4）高擴展性：大數據的應用程序需要在DCS系統中以高吞吐量低延遲的環境下訪問

（5）開放的、基於標準和靈活的服務層：傳統的數據倉庫架構的存儲UI存在於不用的協議層上，會導致無法動態的分配資源

4.相較Spark等5種大數據框架，基於Hadoop的數據中心的好處是什麼？

（1）Spark沒有文件管理功能，因而必須依賴Hadoop分佈式文件系統(HDFS)或另外某種解決方案。

（2）Hadoop佔用內存比Spark更小

（3）Spark無法進行分佈式數據的存儲

Jieforest：

1.什麼是Hadoop？

Hadoop起源於Google。Google公司於2003年和2004年發表了兩篇描述Google技術的學術論文：谷歌文件系統（GFS）和MapReduce 。它們提供了一個高效處理極大規模數據的平臺。與此同時，Doug Cutting正在研究開源的網頁搜索引擎Nutch。他一直致力於系統原理的工作，當Google的GFS和MapReduce論文發表後，引起了他的強烈共鳴。Doug開始著手實現這些Google系統，不久之後，Hadoop誕生了。Hadoop早期以Lucene子項目的形式出現，不久之後成了Apache開源基金會的頂級項目。因此，從本質上來講，Hadoop是一個實現了MapReduce和GFS技術的開源平臺，它可以在由低成本硬件組成的集群上處理極大規模的數據集。作為一個頂級項目，Hadoop項目包含許多組件子項目。

2.為什麼組織從傳統的數據倉庫工具轉移到基於Hadoop生態系統的智能數據中心？

主要因素還是在於企業組織在生產運營中產生的數據越來越大，使用傳統的數據倉庫工具顯得越來越力不從心。企業組織經過多方面瞭解、評估之後，開始考慮建立基於Hadoop生態系統的智能數據中心。

3.更智能&更大的數據中心架構與傳統的數據倉庫架構有何不同？

傳統的數據倉庫架構主要包含數據流入流出的過程，通常分為三層：源數據層、數據倉庫層、數據應用層。

源數據層：日誌、數據庫、文件系統、媒體文件

數據倉庫層：聚合數據、多維數據、業務模型、關係型數據

數據應用層：報表展示、實時查詢、數據分析、數據挖掘

而智能化的數據中心架構大致分四層：數據採集層、數據存儲&分析層、數據共享層、數據應用層。數據採集層的任務就是把數據從各種數據源中採集和存儲到數據存儲上，期間有可能會做一些簡單的清洗。數據共享層指的是前面數據分析與計算後的結果存放的地方。

4.相較Spark等5種大數據框架，基於Hadoop的數據中心的好處是什麼？

好處有：1）基於Hadoop的數據中心在技術方面顯得更成熟、穩定；

2）相關的IT從業人員也更多，更易於招聘；

3）基於Hadoop的商業解決方案也更多，哪怕是不懂這些的公司也更易於實施。

sjf0115：

（１）什麼是Hadoop？

Hadoop由 Apache Software Foundation 公司於 2005 年秋天作為Lucene的子項目Nutch的一部分正式引入。它受到最先由 Google Lab 開發的 Map/Reduce 和 Google File System(GFS) 的啟發。是由Apache基金會所開發的分佈式系統基礎架構。Hadoop實現了一個分佈式文件系統，簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的硬件上來提供高吞吐量訪問應用程序的數據，適合那些有著超大數據集的應用程序。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，則MapReduce為海量的數據提供了計算。

（２）為什麼組織從傳統的數據倉庫工具轉移到基於Hadoop生態系統的智能數據中心？

對於傳統手段實現的數據倉庫工具，利用的主要是結構化數據進行統計分析。這部分功能在大數據平臺上完全可以實現，而且大數據平臺採用的分佈式架構設計，利用分佈式計算完成相同的工作內容所需時間更短。說一下基於Hadoop生態系統的智能數據中心的優點：

結構化（例如RDBMS），非結構化（例如images，PDF，docs ）和半結構化（例如logs，XMLs）的數據可以以可擴展和容錯的方式存儲在較便宜的商品機器中
可以通過批處理作業和近實時（即，NRT，200毫秒至2秒）流（例如Flume和Kafka）來攝取數據。
數據可以使用諸如Spark和Impala之類的工具以低延遲（即低於100毫秒）的能力查詢。
Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。
Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

（3）更智能&更大的數據中心架構與傳統的數據倉庫架構有何不同？

傳統企業數據倉庫架構：企業支出將達8億美元，Hadoop會成為最好的框架嗎？

（４）相較Spark等5種大數據框架，基於Hadoop的數據中心的好處是什麼？

Hadoop社區活躍，對開發人員的能力要求相對不高，工程師的學習成本也並不高，Hadoop社區活躍，軟件進化較快，從業人員供應相對較多，且有相對較多的真實應用案例，這使得應用風險相對較低；成熟的生態圈代表的未來的發展方向，代表著美好的市場前景；

應用環境搭建維護的成本方面，其對硬件要求較低，不需要為其配置傳統高端計算、存儲，且因為可水平擴展的原因，規模成本可隨著需求逐步增加，避免一次性投資風險；

企業支出將達8億美元，Hadoop會成為最好的框架嗎？

相關推薦