最全的大數據技術大合集：Hadoop家族、Cloudera系列、spark

Hadoop Spark 大數據 Cloudera HDFS Hive Apache 技術 MapReduce 數據庫 HBase GFS Storm Cassandra BigTable Google SQL 軟件數據結構數據挖掘分佈式計算程序員典典的多智時代 2019-05-21

大數據我們都知道Hadoop，可是還會各種各樣的技術進入我們的視野：Spark，Storm，impala，讓我們都反映不過來。為了能夠更好的架構大數據項目，這裡整理一下，供技術人員，項目經理，架構師選擇合適的技術，瞭解大數據各種技術之間的關係，選擇合適的語言。

我們可以帶著下面問題來閱讀本文章：

1.hadoop都包含什麼技術？

2.Cloudera公司與hadoop的關係是什麼，都有什麼產品，產品有什麼特性？

3.Spark與hadoop的關聯是什麼？

4.Storm與hadoop的關聯是什麼？

hadoop家族

創始人：Doug Cutting

整個Hadoop家族由以下幾個子項目組成：

Hadoop Common：

Hadoop體系最底層的一個模塊，為Hadoop各子項目提供各種工具，如：配置文件和日誌操作等。

HDFS：

是Hadoop應用程序中主要的分佈式儲存系統， HDFS集群包含了一個NameNode（主節點），這個節點負責管理所有文件系統的元數據及存儲了真實數據的DataNode（數據節點，可以有很多）。HDFS針對海量數據所設計，所以相比傳統文件系統在大批量小文件上的優化，HDFS優化的則是對小批量大型文件的訪問和存儲。

MapReduce：

是一個軟件框架，用以輕鬆編寫處理海量（TB級）數據的並行應用程序，以可靠和容錯的方式連接大型集群中上萬個節點（商用硬件）。

Hive：

Apache Hive是Hadoop的一個數據倉庫系統，促進了數據的綜述（將結構化的數據文件映射為一張數據庫表）、即席查詢以及存儲在Hadoop兼容系統中的大型數據集分析。Hive提供完整的SQL查詢功能——HiveQL語言，同時當使用這個語言表達一個邏輯變得低效和繁瑣時，HiveQL還允許傳統的Map/Reduce程序員使用自己定製的Mapper和Reducer。hive類似CloudBase，基於hadoop分佈式計算平臺上的提供data warehouse的sql功能的一套軟件。使得存儲在hadoop裡面的海量數據的彙總，即席查詢簡單化。

Pig：

Apache Pig是一個用於大型數據集分析的平臺，它包含了一個用於數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在於它們的結構經得起大量的並行，也就是說讓它們支撐起非常大的數據集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器。Pig的語言層當前包含了一個原生語言——Pig Latin，開發的初衷是易於編程和保證可擴展性。

Pig是SQL-like語言，是在MapReduce上構建的一種高級查詢語言，把一些運算編譯進MapReduce模型的Map和Reduce中，並且用戶可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。

HBase：

Apache HBase是Hadoop數據庫，一個分佈式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問，並針對了商用服務器集群上的大型表格做出優化——上百億行，上千萬列。其核心是Google Bigtable論文的開源實現，分佈式列式存儲。就像Bigtable利用GFS（Google File System）提供的分佈式數據存儲一樣，它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。

ZooKeeper：

Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分佈式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分佈式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

Avro：

Avro是doug cutting主持的RPC項目，有點類似Google的protobuf和Facebook的thrift。avro用來做以後hadoop的RPC，使hadoop的RPC模塊通信速度更快、數據結構更緊湊。

Sqoop:

Sqoop是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具，可以將一個關係型數據庫中數據導入Hadoop的HDFS中，也可以將HDFS中數據導入關係型數據庫中。

Mahout:

Apache Mahout是個可擴展的機器學習和數據挖掘庫，當前Mahout支持主要的4個用例：

推薦挖掘：蒐集用戶動作並以此給用戶推薦可能喜歡的事物。

聚集：收集文件並進行相關文件分組。

分類：從現有的分類文檔中學習，尋找文檔中的相似特徵，併為無標籤的文檔進行正確的歸類。

頻繁項集挖掘：將一組項分組，並識別哪些個別項會經常一起出現。

Cassandra：

Apache Cassandra是一個高性能、可線性擴展、高有效性數據庫，可以運行在商用硬件或雲基礎設施上打造完美的任務關鍵性數據平臺。在橫跨數據中心的複製中，Cassandra同類較佳，為用戶提供更低的延時以及更可靠的災難備份。通過log-structured update、反規範化和物化視圖的強支持以及強大的內置緩存，Cassandra的數據模型提供了方便的二級索引（column indexe）。

Chukwa：

Apache Chukwa是個開源的數據收集系統，用以監視大型分佈系統。建立於HDFS和Map/Reduce框架之上，繼承了Hadoop的可擴展性和穩定性。Chukwa同樣包含了一個靈活和強大的工具包，用以顯示、監視和分析結果，以保證數據的使用達到較佳效果。

Ambari：

Apache Ambari是一個基於web的工具，用於配置、管理和監視Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤，比如heatmaps和查看MapReduce、Pig、Hive應用程序的能力，以友好的用戶界面對它們的性能特性進行診斷。

HCatalog

Apache HCatalog是Hadoop建立數據的映射表和存儲管理服務，它包括：

提供一個共享模式和數據類型機制。

提供一個抽象表，這樣用戶就不需要關注數據存儲的方式和地址。

為類似Pig、MapReduce及Hive這些數據處理工具提供互操作性。

Chukwa：

Chukwa是基於Hadoop的大集群監控系統，由yahoo貢獻。

Cloudera系列產品：

創始組織：Cloudera公司

1.Cloudera Manager:

有四大功能

（1）管理

（2）監控

（3）診斷

（4）集成

2.Cloudera CDH：英文名稱：CDH (Cloudera’s Distribution, including Apache Hadoop)

Cloudera對hadoop做了相應的改變。

Cloudera公司的發行版，我們將該版本稱為CDH（Cloudera Distribution Hadoop）。

3.Cloudera Flume

Flume是Cloudera提供的日誌收集系統，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；

Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力。

Flume最早是Cloudera提供的日誌收集系統，目前是Apache下的一個孵化項目，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力 Flume提供了從console（控制檯）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日誌系統，支持TCP和UDP等2種模式），exec（命令執行）等數據源上收集數據的能力。

Flume採用了多Master的方式。為了保證配置數據的一致性，Flume[1]引入了ZooKeeper，用於保存配置數據，ZooKeeper本身可保證配置數據的一致性和高可用，另外，在配置數據發生變化時，ZooKeeper可以通知Flume Master節點。Flume Master間使用gossip協議同步數據。

4.Cloudera Impala

Cloudera Impala對你存儲在Apache Hadoop在HDFS，HBase的數據提供直接查詢互動的SQL。除了像Hive使用相同的統一存儲平臺，Impala也使用相同的元數據，SQL語法（Hive SQL），ODBC驅動程序和用戶界面（Hue Beeswax）。Impala還提供了一個熟悉的面向批量或實時查詢和統一平臺。

5.Cloudera hue

Hue是cdh專門的一套web管理器，它包括3個部分hue ui，hue server，hue db。hue提供所有的cdh組件的shell界面的接口。你可以在hue編寫mr，查看修改hdfs的文件，管理hive的元數據，運行Sqoop，編寫Oozie工作流等大量工作。

Spark

創始組織：加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發

Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分佈數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分佈式數據集。

儘管創建 Spark 是為了支持分佈式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoo 文件系統中並行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發，可用來構建大型的、低延遲的數據分析應用程序。

Storm

創始人：Twitter

Twitter將Storm正式開源了，這是一個分佈式的、容錯的實時計算系統，它被託管在GitHub上，遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統，BackType現在已在Twitter麾下。GitHub上的版本是Storm 0.5.2，基本是用Clojure寫的。

最全的大數據技術大合集：Hadoop家族、Cloudera系列、spark

相關推薦