Hive是如何在Hadoop集群中工作的？

Hive Hadoop HDFS MySQL 我為技術狂 2017-06-14

hive是建設在Hadoop之上，Hive包括如下組件：CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、MetaStore和Driver(Complier、Optimizer和Executor)。

1) Driver組件：包括Complier、Optimizer和Executor，它的作用是將我們寫的HiveQL（類SQL）語句進行解析、編譯優化，生成執行計劃，然後調用底層的MapReduce計算框架。

2) Metastore組件：元數據服務組件存儲hive的元數據，hive的元數據存儲在關係數據庫裡，hive支持的關係數據庫有derby、mysql。Hive還支持把metastore服務安裝到遠程的服務器集群裡，從而解耦hive服務和metastore服務。

3) Thrift服務：thrift是facebook開發的一個軟件框架，它用來進行可擴展且跨語言的服務的開發，hive集成了該服務，能讓不同的編程語言調用hive的接口。

4) CLI：command line interface，命令行接口。

5) Thrift客戶端：hive架構的許多客戶端接口是建立在thrift客戶端之上，包括JDBC和ODBC接口。

6) WEBGUI：hive客戶端提供了一種通過網頁的方式訪問hive所提供的服務。

用戶接口主要有三個：CLI，Client 和 WUI。其中最常用的是CLI，公司內可通過堡壘機連接ssh [email protected]，直接輸入hive，就可連接到HiveServer。

Hive的metastore組件是hive元數據集中存放地。Metastore組件包括兩個部分：metastore服務和後臺數據的存儲。後臺數據存儲的介質就是關係數據庫，例如hive默認的嵌入式磁盤數據庫derby，還有mysql數據庫。Metastore服務是建立在後臺數據存儲介質之上，並且可以和hive服務進行交互的服務組件，默認情況下，metastore服務和hive服務是安裝在一起的，運行在同一個進程當中。我也可以把metastore服務從hive服務裡剝離出來，metastore獨立安裝在一個集群裡，hive遠程調用metastore服務，這樣我們可以把元數據這一層放到防火牆之後，客戶端訪問hive服務，就可以連接到元數據這一層，從而提供了更好的管理性和安全保障。使用遠程的metastore服務，可以讓metastore服務和hive服務運行在不同的進程裡，這樣也保證了hive的穩定性，提升了hive服務的效率。

對於數據存儲，Hive沒有專門的數據存儲格式，可以非常自由的組織Hive中的表，只需要在創建表的時候告訴Hive數據中的列分隔符和行分隔符，Hive就可以解析數據。Hive中所有的數據都存儲在HDFS中，存儲結構主要包括數據庫、文件、表和視圖。Hive中包含以下數據模型：Table內部表，External Table外部表，Partition分區，Bucket桶。Hive默認可以直接加載文本文件，還支持sequence file 、RCFile。

Hive的數據模型介紹如下：

1) Hive數據庫

類似傳統數據庫的DataBase，例如 hive >create database test_database;

2) 內部表

Hive的內部表與數據庫中的表在概念上是類似。每一個Table在Hive中都有一個相應的目錄存儲數據。例如一個表hive_test，它在HDFS中的路徑為/home/hdp_lbg_ectech/warehouse/hdp_lbg_ectech_bdw.db/hive_test，其中/home/hdp_lbg_ectech/warehouse是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的數據倉庫的目錄，所有的Table數據（不包括外部表）都保存在這個目錄中。刪除表時，元數據與數據都會被刪除。

建表語句示例：

CREATE EXTERNAL TABLE hdp_lbg_ectech_bdw.hive_test

(`userid` string COMMENT'')

ROW FORMAT DELIMITED FIELDS TERMINATED BY'\001';

load data inpath ‘/home/hdp_lbg_ectech/resultdata/test.txt’overwrite into table hive_test;

3) 外部表

外部表指向已經在HDFS中存在的數據，可以創建分區。它和內部表在元數據的組織上是相同的，而實際數據的存儲則有較大的差異。內部表在加載數據的過程中，實際數據會被移動到數據倉庫目錄中。刪除表時，表中的數據和元數據將會被同時刪除。而外部表只有一個過程，加載數據和創建表同時完成（CREATE EXTERNAL TABLE ……LOCATION），實際數據是存儲在LOCATION後面指定的 HDFS 路徑中，並不會移動到數據倉庫目錄中。當刪除一個外部表時，僅刪除該表的元數據，而實際外部目錄的數據不會被刪除，推薦使用這種模式。

4) 分區

Partition相當於數據庫中的列的索引，但是Hive組織方式和數據庫中的很不相同。在Hive中，表中的一個分區對應於表下的一個目錄，所有的分區數據都存儲在對應的目錄中。

一般是按時間、地區、類目來分區，便於局部查詢，避免掃描整個數據源。

5) 桶

Buckets是將表的列通過Hash算法進一步分解成不同的文件存儲。它對指定列計算hash，根據hash值切分數據，目的是為了並行，每一個Bucket對應一個文件。例如將userid列分散至32個bucket，首先對userid列的值計算hash，對應hash值為0的HDFS目錄為/home/hdp_lbg_ectech/resultdata/part-00000；hash值為20的HDFS目錄為/home/hdp_lbg_ectech/resultdata/part-00020。

6) Hive的視圖

視圖與傳統數據庫的視圖類似。目前只有邏輯視圖，沒有物化視圖；視圖只能查詢，不能Load/Insert/Update/Delete數據；視圖在創建時候，只是保存了一份元數據，當查詢視圖的時候，才開始執行視圖對應的那些子查詢；

如何用4個月學會Hadoop？

Hive是如何在Hadoop集群中工作的？

準備學Hadoop的同學可以找套視頻來看，當初給同事學Hadoop給他找了幾本書基本看不懂。

後來他別人給他一套視頻跟著學，4個月就學會了，我看了一下那個視頻從0基礎入門Hadoop，到中各個組件的講解都很詳細，最重要是有很多真實的案例。

把這個方法告訴大家，希望你們能少走彎路。

ganshiyu1026

需要視頻的童鞋可以力口上面這個鵬友圈。

相關推薦

'百度美團Java開發如何在高併發分佈式下生成全局ID生成策略'

"傳統的單體架構的時候，我們基本是單庫然後業務單表的結構。每個業務表的ID一般我們都是從1增，通過AUTO_INCREMENT=1設置自增起始值，但是在分佈式服務架構模式下分庫分表的設計，使得多個庫或多個表存儲相同的業務數據。這種情況根據數據庫的自增ID就會產生相同ID的情...

Java 數據庫 Mac電腦算法 MySQL 美團網百度設計 2019-08-18

如何在 Linux 上安裝/卸載一個文件中列出的軟件包？

我們可以手動去安裝這些軟件但是這將花費大量的時間。你可以手動安裝一倆個服務器，但是試想如果你有大概十個服務器呢。在這種情況下你無法手動完成工作，那麼怎樣才...

Linux 軟件 Perl MariaDB Ubuntu MySQL Debian AWK Red Hat Enterprise Linux 2019-07-13

如何用形象的比喻描述大數據Hadoop、Hive、Spark 之間是什麼關係

問題：如何用形象的比喻描述大數據的技術生態？Hadoop、Hive、Spark 之間是什麼關係？對於我們這些文科，商科生來說。我們剛剛搞懂服務器，數據庫，...

Spark Hadoop 大數據 Hive HDFS MapReduce 技術數據庫算法 BigTable 腳本語言工程師 Cassandra Java 彙編語言 GFS 設計程序員 HBase 2019-07-10

linux運維工程師簡歷中的工作經歷怎麼寫

工作經歷（案例一）工作時間：2015-06 - 至今公司名稱：【七分簡歷】網絡科技有限公司 | 所在部門： | 所在崗位：linux運維工程師工作描述：1.負責公司網站平臺的維護與優化；2.負責linux服務器的管理工作，負責服務器的安裝、配置及日常維護；3.負責Linux...

Linux 工程師人生第一份工作操作系統網絡安全軟件數據庫技術 MySQL Tomcat 腳本語言 Nginx 2019-06-30

如何在百萬數據中，一招“治敵”

引言：隨著公司的發展，稍微有些名氣的企業或者單位裡的數據庫中都會存在著上百萬數據量，裡面可能包括有用戶信息，產品信息，原料信息等等等。而作為程序員開發者的...

數據庫軟件 SQL 硬件技術 Microsoft SQL Server 程序員中央處理器 MySQL 2019-06-14

開源如何在雲中生存

在過去的十年中，從Linux和MySQL到Kubernetes、Spark、Presto和MongoDB，開源一直是雲計算技術創新的支柱。但最近的發展已經...

開源軟件雲計算 Presto 技術 Spark Linux ?? Hive Apache 物聯網韓國紅帽公司 MySQL ??? MongoDB IBM 日本 Google 2019-04-19

在北京三年java開發經驗月薪16k，如何在四年經驗時要到20k+？

3年JAVA程序員的自評半道出家的程序員，從不偽造簡歷，起點低，三年時才16k月薪*14在北京，認為混的比較差。當然補充一句，不要拿應屆生的所謂待遇來比，...

Java 程序員 MySQL 數據庫設計工作這一年操作系統 Linux MongoDB Redis SQL 技術 ElasticSearch 工程師 Lucene jQuery Python Nginx 電腦 Hadoop PHP Node.js C語言虛擬機 Memcached Android 2019-04-06

基於Docker快速構建Hadoop集群及MAC本地編譯Hadoop總結

很多人在初學Hadoop的時候，都會受阻於Hadoop集群環境的部署，最終放棄治療，僅僅停留在學習分佈式系統理論的層面而缺乏動手實踐環節。為了幫助大家快速構建Hadoop集群，本文提供了一種”即經濟又環保且方便省心”的部署方式，相信你，一定會喜歡的。一般情況下，大家在個人電...

Hadoop Docker Mac Linux OpenSSL knowalker 2017-11-29

理解Hadoop分佈式文件系統中的難與易：架構和設計

Hadoop中的數據訪問設計，說簡單簡單，說複雜那是相當複雜。初入門的小娃感覺就是調用API的事，但一旦接觸真正複雜的項目，無法理解核心邏輯，會埋下難以修...

Hadoop HDFS 技術會技術的葛大爺 2017-11-07

Java開發大型互聯網hadoop分佈式集群之MySQL分佈式集群搭建

引言分佈式系統（distributed system）是建立在網絡之上的軟件系統。正是因為軟件的特性，所以分佈式系統具有高度的內聚性和透明性。因此，網絡和...

Hadoop MySQL Java 編程語言 Java小雷哥 2017-11-05

教你五招搞定Hadoop集群，搞不定找我！

HDFS 2.x高可用性集群架構在本文中，我將討論HDFS 2.x高可用性群集體系結構以及設置HDFS高可用性群集的過程。本博客涵蓋的主題順序如下：· ...

Hadoop HDFS 編程語言 Java 月似故人來 2017-10-04

大數據Hive on hadoop環境的搭建

直接乾貨，不廢話，看完文章的朋友，覺得寫的不錯的，希望大家關注我環境要求·Java 1.7備註: hive1.2以上版本要求jdk1.7或者更新的版本. ...

Hive Hadoop 編程語言大數據猿先生大數據 2017-10-03

從零開始搭建Hadoop分佈式集群-CDH5.12搭建，15min全部搞定！

CM5（5.12.0）和CDH5（5.12.0）離線安裝&middot; 概述&middot; 文件下載，下載文件安裝包在群6401931...

文本編輯器 Hadoop Cloudera Hive 未知的未來 2017-09-27

Java技術-分佈式演變過程中之Session集群解決方案筆記

隨著我們互聯網技術的發展、用戶量已經很大了、現在單臺機器已經不能存儲這麼多人的會話。那我們應該怎麼辦？我們需要對系統進行一個垂直拆分，比如電商系統我們分為...

編程語言 Java Tomcat MySQL 白果Java技術匯 2017-09-21

分佈式演變過程中之Session集群解決方案

Tomcat MySQL Redis 電子商務閒談君 2017-09-17

如何用4個月轉型Hadoop開發？百度核心架構師給出這幾點建議

隨著近兩年大數據越來越熱，很多公司藉助大數據的應用實現了逆襲。也有很有技術人員都準備進入大數據行業。其原因無外乎這兩點1、職場老人遭遇到發展瓶頸，很難有大...

Hadoop 大數據 Spark 推薦技術大數據焦點 2017-09-04

Hadoop輝煌還能延續多久——大數據安全性和未來的工作

根據總部位於康涅狄格州的Gartner公司的分析師Merv Adrian表示,他們的Hadoop試點項目早期冒險進入大數據領域的企業傾向於雲計算,但正在發...

大數據 Hadoop 雲計算英特爾 ITStar 2017-08-28

如何在centos 7.2 環境下安裝mysql數據庫

好久沒更新了老鐵們，最近小三實在抽不出身來，還望各位老鐵不要扎心啊！關注小三的小夥伴兒們會有疑問，你丫為啥每次發的東西都不一樣，有時候發機車，有時候發Li...

MySQL CentOS Linux Systemd 極客行者 2017-08-28

這個在本地搭建Hadoop集群的方法，你在其他地方絕對搜不到

工欲善其事必先利其器，想學習Hadoop開發首先要在本地搭建好Hadoop集群環境。這樣日後才可以一邊學習新知識、一邊練習寫代碼。那我們應該如何在本地搭建...

Hadoop 文本編輯器防火牆文章孫國宇 2017-08-05

教你如何在Mac OS系統搭建PHP環境及MySQL，原來這麼簡單

小編使用的是Mac電腦，曾經為搭建PHP環境絞盡腦汁，因為Mac不像windows那樣有很多教程，現有的Mac 版教程基本上都太深，容易遇到問題，不適合新手。今天小編就為大家總結一下簡單實用的方法！首先我們要了解的是Mac繫系統是自帶Apache和PHP的，也就是在Mac上...

MySQL 編程語言 phpMyAdmin Apache 2017-08-02

推薦中...