HBase 搭建使用

HBase 編程語言 XML Apache IT星源 2017-06-16

HBase 搭建使用

HBase（Hadoop Database）是一個開源的非關係型分佈式數據庫（NoSQL），它參考了谷歌的BigTable建模，實現的編程語言為 Java。它是Apache軟件基金會的Hadoop項目的一部分，運行於HDFS文件系統之上，它可以容錯地存儲海量稀疏的數據。
HBase在列上實現了BigTable論文提到的壓縮算法、內存操作和布隆過濾器。HBase的表能夠作為MapReduce任務的輸入和輸出，可以通過Java API來訪問數據，也可以通過REST、Avro或者Thrift的API來訪問。
在 CAP理論中，HBase屬於CP類型的系統。

安裝單機環境

去apache官方網站，下載 HBase 。點擊 stable目錄，然後下載hbase-1.2.6-bin.tar.gz。解壓即可

tar xzvf hbase-1.2.6-bin.tar.gz

cd hbase-1.2.6/

先安裝java環境。設置環境變量JAVA_HOME

編輯 conf/hbase-site.xml 配置hbase.rootdir，來選擇HBase將數據寫到哪個目錄。將 DIRECTORY 替換成你期望寫文件的目錄。默認hbase.rootdir 是指向 /tmp/hbase-${user.name}

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hbase.rootdir</name>
<value>file:/home/users/xxxxxx/hbase_data/</value>
</property>
</configuration>

啟動HBase

./bin/start-hbase.sh

現在運行的是單機模式的Hbaes，所有的服務都運行在一個JVM上。通過jps命令查看HMaster進程。HBase的日誌放在logs目錄,當你啟動出問題的時候，可以檢查這些日誌。

關閉HBase

./bin/stop-hbase.sh
stopping hbase....................

數據模型

在HBase中，數據存儲在具有行和列的表中。這是與關係數據庫（RDBMS）的術語重疊，但並不相同。相反，HBase表應該被視為多維映射。

表（Table）

HBase表由多行組成。

行（Row）

HBase中的一行由行鍵（row key）和一個或多個列組成。行鍵按字母順序排序，因此，行鍵的設計是非常重要的。目標是相關相近的行存儲在一起。如果你的行鍵是網站域名，你應該可以將它們反向存儲（org.apache.www，org.apache.mail，org.apache.jira）。這樣，所有的apache域名都在表中臨近存儲，而不是由於二級域名而分散。

列（Column）

HBase中的列由列族和列限定符組成，它們由一個：（冒號）字符分隔。

列族（Column Family）

列族經常出於性能考慮，共同定位一組列及其值。每列族都具有一組存儲屬性，例如它的值是否應該緩存在內存中，它的數據如何被壓縮或者它的行鍵如何被編碼等等。表中的每一行都具有相同的列族，儘管某些行可能不會在給定列族中存儲任何內容。

列限定符（Column Qualifier）
列限定符被添加到列族中以提供給定數據片段的索引。比如列族content，列限定符可能是content：html，另一個可能是content：pdf。儘管列族在表創建時已經確定，但列限定符是可變的，並且可能不同行的之間有很大不同。

單元（cell）

一個{row, column, version} 元組確定一個HBase中的一個 cell。包含值和時間戳。

時間戳（Timestamp）

時間戳與每個值一起寫入，並且是值的給定版本的標識符。默認情況下，時間戳記表示server端寫入數據的時間，但可以在數據寫入時指定時間戳值。

shell命令

連接到HBase

$ ./bin/hbase shell
hbase(main):001:0>

創建一個名為 t1 的表，這個表只有一個列族為 cf

hbase(main):003:0> create 't1','cf'
0 row(s) in 1.2360 seconds
=> Hbase::Table - t1

查看數據表

hbase(main):004:0> list 't1'
TABLE
t1
1 row(s) in 0.0050 seconds
=> ["t1"]

hbase(main):005:0> describe 't1'
Table t1 is ENABLED
t1
COLUMN FAMILIES DESCRIPTION
{NAME => 'cf', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCO
DING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536',
REPLICATION_SCOPE => '0'}
1 row(s) in 0.0940 seconds

插入數據

put 't1', 'row1', 'cf:a', 'value1'
put 't1', 'row2', 'cf:b', 'value2'
put 't1', 'row3', 'cf:c', 'value3'

HBase中的列是由列族前綴和列的名字組成的，以冒號間隔

掃描全表

hbase(main):011:0> scan 't1'
ROW COLUMN+CELL
row1 column=cf:a, timestamp=1497426156495, value=value1
row2 column=cf:b, timestamp=1497426156519, value=value2
row3 column=cf:c, timestamp=1497426157158, value=value3
3 row(s) in 0.0090 seconds

按範圍查找rowkey

hbase(main):015:0> scan 't1' , {STARTROW=>'row1',STOPROW=>'row2'}
ROW COLUMN+CELL
row1 column=cf:a, timestamp=1497426156495, value=value1
1 row(s) in 0.0100 seconds

查找一行記錄

hbase(main):016:0> get 't1','row1'
COLUMN CELL
cf:a timestamp=1497426156495, value=value1
1 row(s) in 0.0190 seconds

REST接口

HBase附帶的REST服務器，可以作為一個守護進程運行。使用以下命令之一在前臺或後臺啟動REST服務器。端口是可選的，默認為8080。

# Foreground
$ bin/hbase rest start -p <port>
# Background, logging to a file in $HBASE_LOGS_DIR
$ bin/hbase-daemon.sh start rest -p <port>

以下命令都可以使用curl或wget命令運行。可以輸入純文本。也可以在HEADER中添加“Accept：text / xml”標頭，接收xml；“application / json”表示json

一般情況下，使用GET請求進行查詢，PUT或POST請求進行創建或更新，刪除使用DELETE。

查看系統版本號

curl -vi -X GET -H "Accept: text/xml" "http://localhost:8081/version/cluster"

也可以直接在瀏覽器中輸入url

查看集群狀態

curl -vi -X GET -H "Accept: text/xml" "http://localhost:8081/status/cluster"

列出非系統數據表

curl -vi -X GET -H "Accept: text/xml" "http://localhost:8081/"

查看某張表的schema

curl -vi -X GET -H "Accept: text/xml" "http://localhost:8081/t1/schema"

相關推薦

'在deepin操作系統上使用KVM虛擬機'

"KVM概念KVMKernel-based Virtual Machine基於內核的虛擬機，配合QEMU（處理器虛擬軟件），需要CPU支持虛擬化技術（並且在BIOS裡打開虛擬化選項），效率可達到物理機的80％以上。架構圖KVM安裝查詢機器是否支持虛擬化：如果在輸出中不包含v...

虛擬機 Deepin Debian 操作系統中央處理器 XML GTK+ 英特爾 Linux 軟件超微半導體 2019-09-14

'阿里面試題 | Nginx 所使用的 epoll 模型是什麼？'

"對於 Nginx，相信有過 Web 服務部署經驗的同學都不陌生，它有以下特點：是一個高性能的 HTTP 和反向代理服務器，也是一個 IMAP/POP3/SMTP 代理服務器。Nginx 相較於 Apache 具有佔有內存少，穩定性高等優勢，並且依靠併發能力強，豐富的模塊庫...

Nginx Linux 人生第一份工作 Apache 酒店大學英語考試 2019-09-14

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'揭祕為什麼應使用 Python 開展科學研究'

"您可能很難相信，Python 編程語言竟然不是一種新語言，實際上，它比 Java™ 語言甚至 HTTP 還要成熟。但不幸的是，人們長期以來一直對 Python 存在某些誤解，比如認為 Python 速度緩慢。這種誤解的根源在於，使用解釋器和標準 Python（使用名為 C...

Python Fortran Octave C語言 MATLAB Java 編譯器 GPU 超級計算機編程語言中央處理器英特爾 GNU 英偉達可視化技術 2019-09-09

'雲HBase Thrift使用最佳實踐'

"HBase原生只提供了JAVA API客戶端，針對諸如python、php、c++等非java語言一般都是通過Thrift代理的方式訪問HBase服務，本文從thrift架構、hbase thrift api使用以及如何監控thrift等幾個方面詳細介紹雲HBase Th...

HBase Java Python PHP Facebook 2019-09-07

'十分鐘搭建不了，你砍我，使用SpringBoot+Dubbo搭建微服務筆記'

"一、Dubbo介紹引用官方的一段介紹Apache Dubbo (incubating) |ˈdʌbəʊ| is a high-performance, java based RPC framework open-sourced by Alibaba. As in many...

Apache Java Tomcat WebApp 可視化技術瀏覽器 Redis Windows 2019-09-07

'MyBatis使用的幾種設計模式，你還不知道嗎？'

"MyBatis 是一款優秀的持久層框架，它支持定製化 SQL、存儲過程以及高級映射。MyBatis 避免了幾乎所有的 JDBC 代碼和手動設置參數以及獲取結果集。MyBatis 可以使用簡單的 XML 或註解來配置和映射原生類型、接口和 Java 的 POJO（Plain...

設計模式 SQL 數據庫 Java XML MySQL 2019-09-06

'0693-6.2.0-如何將Hive數據導入HBase'

"作者：汪汝慶文檔編寫目的在一些業務場景中需要將Hive的數據導入到HBase中，通過HBase服務為線上業務提供服務能力。本篇文章Fayson主要通過在Hive上創建整合HBase表的方式來實現Hive數據導入到HBase。測試環境1.Redhat7.22.採用root用...

HBase Hive SQL 2019-09-03

'Kali Linux實戰篇：Nmap使用最全總結「珍藏」'

"聲明：本頭條號【Kali技術】所有分享，僅限學習交流！請勿他用！ 0X00 背景nmap是測試中常用的網絡探測工具，但是這回簡單的操作，一直了解不深入，現在深入的瞭解和學習一下。在文章結構上，我把平時常用的內容提前了，以便再次查閱的時候，比較方便。0X01 安裝nmap可...

Linux Kali Linux DNS XML 操作系統 GNU 技術 2019-08-31

'使用 Python 處理 JSON 格式的數據'

"如果你不希望從頭開始創造一種數據格式來存放數據，JSON 是一個很好的選擇。如果你對 Python 有所瞭解，就更加事半功倍了。下面就來介紹一下如何使用 Python 處理 JSON 數據。-- Seth Kenlon（作者）JSON 的全稱是 JavaScript 對象...

JSON Python JavaScript 數據結構編程語言 2019-08-29

'解密丨王者榮耀使用什麼編程語言開發的？原來\'卡頓\'原因是這樣'

"現在什麼手機遊戲最火？不用問，肯定是人人都在擼的“王者榮耀” ！但是隻會打遊戲，不去研究可不行。一直在想，像王者榮耀這樣火的遊戲是用什麼引擎和語言開發的？今天筆者就去找了一些相關的資料，整理出來了一篇小短文，分享給大家！開發引擎——Unity3DUnity3D是個遊戲引...

編程語言 Qwangzherongyao 電子遊戲 Linux Windows 腳本語言軟件遊戲引擎遊戲編程 Unity引擎 Java 騰訊微軟 C語言技術操作系統程序員 iOS 硬件 Mac電腦 2019-08-28

'使用 Bitwarden 和 Podman 管理你的密碼'

"通過使用一個強密碼而不是許多弱密碼，這可以使你更安全。-- Eric Gustavsson（作者）在過去的一年中，你可能會遇到一些試圖向你推銷密碼管理器的廣告。比如 LastPass 、 1Password 或 Dashlane 。密碼管理器消除了記住所有網站密碼的負...

Microsoft SQL Server Systemd SQL MySQL MariaDB Apache Nginx 微軟 2019-08-26

'Tomcat+Nginx負載均衡集群由Linux環境搭建'

"Tomcat服務器是一個免費的開放源代碼的web應用服務器，屬於輕量級應用服務器，是開發和調試JSP程序的首選。由於Tomcat處理靜態HTML的能力運不及Apache或者Nginx，所以Tomcat通常是作為一個Servlet和JSP容器，單獨運行在後端。Nginx服務...

Tomcat Nginx Linux Java Apache 軟件腳本語言 JSP 防火牆虛擬機 Vim 2019-08-22

'一次使用 Go 語言編寫腳本的經歷'

"本文介紹了我如何嘗試使用 Go 語言進行腳本編程的經歷。文中我將討論 Go 腳本的必要性，我們預期的表現以及可能的實現方式。在討論過程中，我講深入探討腳本、Shell 和 Shebang。最終，我們將會討論讓 Go 腳本工作的解決方案。為什麼 Go 語言適合編寫腳本？通常...

腳本語言 Go語言 Python Vim Java 操作系統 Bash UNIX 編程語言 2019-08-20

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'在函數計算FunctionCompute中使用WebAssembly'

"稿件來源：阿里雲開發者社區（點擊下面“瞭解更多”查看原文）WebAssembly 是一種新的W3C規範，無需插件可以在所有現代瀏覽器中實現近乎原生代碼的性能。同時由於 WebAssembly 運行在輕量級的沙箱虛擬機上，在安全、可移植性上比原生進程更加具備優勢。同時資源消...

Rust JavaScript 瀏覽器 Linux 阿里雲計算 C語言 Mozilla Chrome 圖像處理 Java Node.js PHP Git Safari 技術 Java虛擬機編程語言虛擬機亞馬遜公司 Python 2019-08-18

'Windows 10 2019五月更新讓Python安裝和使用變得更加容易'

"儘管很多人想要學習編程，但“萬事開頭難”這個道理，還是會將不少人勸退。你在網上找到的大多數教程，都既定假設用戶已經知道了如何執行基本操作，甚至直接跳到服務器管理等進階內容。好消息是，在 Windows 10 2019 五月更新（Version 1903）中，微軟為想要學習...

Python Windows Windows 10 微軟集成開發環境操作系統 Microsoft Visual Studio 編程語言 2019-08-18

'B站用go重寫java後臺工程？使用Go語言一段時間的感受'

"最近在忙一個Server+Client的項目，Client是Android手機，大概也就是幾十的規模。Server是純Go語言實現，沒有apache或者ngix這種web server，也沒有數據庫，自己寫了個文件管理module，處理這種小規模的服務沒問題。算下來接觸G...

Go語言 Java Python 設計 Bilibili Android Django 數據結構程序員 Apache MySQL Objective-C 編譯器 Erlang 數據庫 UNIX 肯·湯普遜 2019-08-16

'HBase 的那一點知識（文末附教程）'

"1、HBase的存儲結構是什麼？該結構有什麼優勢？HBase是列式存儲數據庫，列式存儲數據庫的出現主要基於這樣一種假設：對於特定的查詢，而不是所有的值都是必須的（即：可以只查詢特定的列）。另外，列式存儲結構由於是基於列存儲的，而列的數據類型天生是相似的，更加有利於壓縮。2...

HBase 數據庫新浪物理 2019-08-09

'黑客滲透攻擊必備環境DVWA簡介及搭建'

"黑客滲透攻擊必備環境DVWA簡介及搭建dVWA簡介DVWA（Damn Vulnerable Web App）是一個基於PHP/MySql搭建的Web應用程序，旨在為安全專業人員測試自己的專業技能和工具提供合法的環境，幫助Web開發者更好的理解Web應用安全防範的過程。D...

黑客 PHP SQL MySQL WebApp 數據庫 Apache phpMyAdmin 瀏覽器 Medium 2019-08-08

推薦中...