如何使用scala+spark讀寫hbase？

編程語言 HBase Scala Spark 科技優家 2017-06-14

軟件版本如下：

scala2.11.8

spark2.1.0

hbase1.2.0

公司有一些實時數據處理的項目，存儲用的是hbase，提供實時的檢索，當然hbase裡面存儲的數據模型都是簡單的，複雜的多維檢索的結果是在es裡面存儲的，公司也正在引入Kylin作為OLAP的數據分析引擎，這塊後續有空在研究下。

接著上面說的，hbase存儲著一些實時的數據，前兩週新需求需要對hbase裡面指定表的數據做一次全量的update以滿足業務的發展，平時操作hbase都是單條的curd，或者插入一個批量的list，用的都是hbase的java api比較簡單，但這次涉及全量update，所以如果再用原來那種單線程的操作api，勢必速度回慢上許多。

關於批量操作Hbase，一般我們都會用MapReduce來操作，這樣可以大大加快處理效率，原來也寫過MR操作Hbase，過程比較繁瑣，最近一直在用scala做spark的相關開發，所以就直接使用scala+spark來搞定這件事了，當然底層用的還是Hbase的TableOutputFormat和TableOutputFormat這個和MR是一樣的，在spark裡面把從hbase裡面讀取的數據集轉成rdd了，然後做一些簡單的過濾，轉化，最終在把結果寫入到hbase裡面。

整個流程如下：

（1）全量讀取hbase表的數據

（2）做一系列的ETL

（3）把全量數據再寫回hbase

核心代碼如下：



//獲取conf
 val conf=HBaseConfiguration.create
  //設置讀取的表
  conf.set(TableInputFormat.INPUT_TABLE,tableName)
  //設置寫入的表
  conf.set(TableOutputFormat.OUTPUT_TABLE,tableName)
//創建sparkConf    
   val sparkConf=new SparkConf
   //設置spark的任務名
   sparkConf.setAppName("read and write for hbase ")
   //創建spark上下文
   val sc=new SparkContext(sparkConf)
   
   //為job指定輸出格式和輸出表名
   
    val newAPIJobConfiguration1 = Job.getInstance(conf)
    newAPIJobConfiguration1.getConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tableName)
    newAPIJobConfiguration1.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
   
   
   //全量讀取hbase表
      val rdd=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat]
      ,classOf[ImmutableBytesWritable]
      ,classOf[Result]
    )
   
   //過濾空數據，然後對每一個記錄做更新，並轉換成寫入的格式
    val final_rdd= rdd.filter(checkNotEmptyKs).map(forDatas)
    
    //轉換後的結果，再次做過濾
    val save_rdd=final_rdd.filter(checkNull)
    
    //最終在寫回hbase表
 save_rdd.saveAsNewAPIHadoopDataset(newAPIJobConfiguration1.getConfiguration)
    sc.stop

從上面的代碼可以看出來，使用spark+scala操作hbase是非常簡單的。下面我們看一下，中間用到的幾個自定義函數：

第一個：checkNotEmptyKs

作用：過濾掉空列簇的數據

  def checkNotEmptyKs(f:((ImmutableBytesWritable,Result))):Boolean={
    val r=f._2
    val rowkey=Bytes.toString(r.getRow)
    val map:scala.collection.mutable.Map[Array[Byte],Array[Byte]]= r.getFamilyMap(Bytes.toBytes("ks")).asScala
    if(map.isEmpty)  false else true
  }

第二個：forDatas

作用：讀取每一條數據，做update後，在轉化成寫入操作


  def forDatas(f: (ImmutableBytesWritable,Result)): (ImmutableBytesWritable,Put)={
      val r=f._2 //獲取Result
      val put:Put=new Put(r.getRow) //聲明put
      val ks=Bytes.toBytes("ks") //讀取指定列簇
      val map:scala.collection.mutable.Map[Array[Byte],Array[Byte]]= r.getFamilyMap(ks).asScala
      map.foreach(kv=>{//遍歷每一個rowkey下面的指定列簇的每一列的數據做轉化
 val kid= Bytes.toString(kv._1)//知識點id
 var value=Bytes.toString(kv._2)//知識點的value值
value="修改後的value"
put.addColumn(ks,kv._1,Bytes.toBytes(value))//放入put對象
      }
      )
    if(put.isEmpty)  null  else (new ImmutableBytesWritable,put)

  }

第三個：checkNull

作用：過濾最終結果裡面的null數據

  def checkNull(f:((ImmutableBytesWritable,Put))):Boolean={
    if(f==null)  false  else true
  }

上面就是整個處理的邏輯了，需要注意的是對hbase裡面的無效數據作過濾，跳過無效數據即可，邏輯是比較簡單的，代碼量也比較少。

除了上面的方式，還有一些開源的框架，也封裝了相關的處理邏輯，使得spark操作hbase變得更簡潔，有興趣的朋友可以瞭解下，github鏈接如下：

相關推薦

'從滴水到怒海：方舟編譯器如何影響技術世界？'

"從今年4月份，在HUAWEI P30系列國內發佈會上提出方舟編譯器的概念以來，這項據稱華為投入十年之久的技術浮出水面已經接近半年。隨著相關披露越來越多，我們也可以更清晰和完整地看待這一艘“方舟”。“方舟”一詞，乍一聽似乎有著濃濃的“救世”意味。或許是因為那些古老的人類文明...

編譯器技術華為公司 Android Java 虛擬機編程語言硬件軟件智能手機 GPU 彙編語言並行計算 C語言大眾汽車人生第一份工作 4月吃什麼 2019-09-16

'優秀的模糊測試代碼是如何煉成的？'

"所謂模糊測試，是指一種通過向目標系統提供非預期的輸入並監視異常結果來發現軟件漏洞的方法，它經過了近 20 年的發展，早已在程序員圈中成為一種主流漏洞挖掘技術。基於此，開發者們該如何編寫良好的模糊測試代碼？作者 | John Regehr譯者 | 彎月，責編 | 屠敏出品 ...

軟件編譯器操作系統程序員編程語言 Twitter CSDN 2019-09-14

'如何做好用戶增長活動中的數據分析'

"筆者結合自己的用戶增長活動經驗，分享了以下內容——數據化思維的價值、行之有效的分析流程、項目中數據異常的監測、排查、處理。數據分析是做用戶增長的一項基本技能，然而每次想好好學習下，看到的資源不是7天精通Excel就是20天進階SQL，甚至於Python必知必會……工欲善其...

Excel 技術好好學習設計黃金 SQL 編程語言 2019-09-13

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'揭祕為什麼應使用 Python 開展科學研究'

"您可能很難相信，Python 編程語言竟然不是一種新語言，實際上，它比 Java™ 語言甚至 HTTP 還要成熟。但不幸的是，人們長期以來一直對 Python 存在某些誤解，比如認為 Python 速度緩慢。這種誤解的根源在於，使用解釋器和標準 Python（使用名為 C...

Python Fortran Octave C語言 MATLAB Java 編譯器 GPU 超級計算機編程語言中央處理器英特爾 GNU 英偉達可視化技術 2019-09-09

'如何看待 2020 屆校招算法崗「爆炸」?算法崗已經供過於求了嗎？'

"今天在知乎看到了這個問題：如何看待 2020 屆校招算法崗「爆炸」的情況？於是嘗試回答了一發。先說說我的個人結論：候選人數目爆炸，但是優秀的候選人並沒有增加太多。公司不是不想招人，是招不到合適的人。女神不是不想找男朋友，是不想找個屌絲做男朋友。另外，找工作其實是門玄學，對...

算法人生第一份工作跳槽那些事兒招聘 Spark 人工智能百度阿里巴巴集團知乎華為公司人力資源 Java 大數據經濟 Hadoop 自然語言處理電腦 2019-09-08

'雲HBase Thrift使用最佳實踐'

"HBase原生只提供了JAVA API客戶端，針對諸如python、php、c++等非java語言一般都是通過Thrift代理的方式訪問HBase服務，本文從thrift架構、hbase thrift api使用以及如何監控thrift等幾個方面詳細介紹雲HBase Th...

HBase Java Python PHP Facebook 2019-09-07

'「大數據分析」深入淺出：如何從零開始學習大數據分析與挖掘'

"文章梳理了學習大數據挖掘分析的思路與步驟，給大家提供一些參考，希望能夠對你有所幫助。最近有很多人想學習大數據，但不知道怎麼入手，從哪裡開始學習，需要學習哪些東西？對於一個初學者，學習大數據分析與挖掘的思路邏輯是什麼？本文就梳理了如何從0開始學習大數據挖掘分析，學習的步驟思...

數據挖掘大數據數據庫算法機器學習 Python SPSS 可視化技術技術人生第一份工作工程師文章人工智能軟件編程語言深度學習 2019-09-05

'一個資深C語言工程師：淺說C語言的重要性以及如何學好C語言'

"前言C語言屬於高級程序語言的一種，它的前身是“ALGOL”。其創始人是布朗·W·卡尼漢和丹尼斯·M·利奇。C語言問世時是帶有很大的侷限性，因為它只能用於UNIX系統上。然而隨著科學技術的進步，計算機工業的發展，C語言逐漸脫離UNIX。1987年美國標準化協會制定了C語言的...

C語言編程語言工程師數據結構 Java JavaScript BASIC語言程序員程序設計 UNIX 編譯器算法 Windows VBScript FoxPro 多看閱讀軟件 Visual Basic Perl 小遊戲硬件 ASP 2019-09-05

'遊戲輔助：實戰並講解如何編寫一個FPS網絡遊戲外掛'

"編程語言：C/C++需要掌握的知識：1、套接字網絡編程2、進程注入3、HOOK API函數的基礎注意：本章不需要用到彙編相關的知識,簡單易懂,為你寫遊戲輔助指一條路,僅用於學習,不要用於非法用途.###【申明】本章只是用於學習製作外掛的原理，該章提到的進程注入方式已經對該...

網絡遊戲 C語言軟件韓國彙編語言運營商編程語言 2019-09-03

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'0693-6.2.0-如何將Hive數據導入HBase'

"作者：汪汝慶文檔編寫目的在一些業務場景中需要將Hive的數據導入到HBase中，通過HBase服務為線上業務提供服務能力。本篇文章Fayson主要通過在Hive上創建整合HBase表的方式來實現Hive數據導入到HBase。測試環境1.Redhat7.22.採用root用...

HBase Hive SQL 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

'如何零基礎入門編程'

"每個人都應該學習計算機編程，因為它教會你如何思考。 ——史蒂夫 • 喬布斯隨著技術的進步，我們的日常生活和社會環境都變得越來越方便和豐富，智能手機和互聯網已經成了我們生活中不可或缺的一部分。據說十年、二十年後，我們將迎來一個計算機（人工智能）和機器人取代人類從事各種工作的...

程序設計 Python 電腦技術編程語言設計 Android 可視化技術軟件人工智能讀書智能手機跳槽那些事兒算術漫畫數據結構英語 2019-09-01

'鴻卓課工場—非IT行業如何轉到IT行業？'

"就目前而言轉行IT性價比最高的方式之一是短訓，就是職業教育培訓，因為時間相對短，回報更快！隨著互聯網的飛速發展，雲計算、大數據由“熱點”到落地，也帶動著市場對軟件開發者的需求，而目前國內軟件開發從業者本已供不應求。互聯網的火熱不僅給軟件開發者帶來更為廣闊的空間，就業薪資也...

人生第一份工作程序員編程語言軟件 Java 職業教育雲計算 C語言 Python 網絡爬蟲大學大數據 2019-08-31

'洛陽課工場—面試官要是問你如何解決web高併發，你就這樣回答'

"所謂高併發，就是同一時間有很多流量(通常指用戶)訪問程序的接口、頁面及其他資源，解決高併發就是當流量峰值到來時保證程序的穩定性。我們一般用QPS(每秒查詢數，又叫每秒請求數)來衡量程序的綜合性能，數值越高越好，一般需要壓測(ab工具)得到數據。假設我們的一個進程(也可以是...

數據庫 CSS 中央處理器腳本語言程序員 Go語言編程語言固態硬盤 PHP JavaScript 技術設計 Redis 洛陽 2019-08-29

'使用 Python 處理 JSON 格式的數據'

"如果你不希望從頭開始創造一種數據格式來存放數據，JSON 是一個很好的選擇。如果你對 Python 有所瞭解，就更加事半功倍了。下面就來介紹一下如何使用 Python 處理 JSON 數據。-- Seth Kenlon（作者）JSON 的全稱是 JavaScript 對象...

JSON Python JavaScript 數據結構編程語言 2019-08-29

'學python容易找工作嗎？又該如何學習呢？'

"1如果你是在北上廣的話，你的可選擇性以及進大公司的概率要大太多，找工作的效率也要高很多。大城市不是人才競爭大，而是急需人才。我們知道，一線城市是全中國公司質量和密度最高的城市，尤其北京上海，所以求職的效率是最高的。但是話說回來，不知道你的Python掌握得怎麼樣了。說實話...

Python 人生第一份工作編程語言技術算法機器學習腳本語言程序員工程師數據結構 2019-08-29

'C語言是如何轉換成彙編語言的？6個步驟帶你解析'

"大家都知道計算機只能處理和識別二進制指令，而我們利用各種高級編程語言所編寫的程序，要經過一些列的處理步驟，最終轉變為彙編指令，再最後轉變為機器指令。C語言以上這些轉變是如何發生的就屬於大名鼎鼎的“編譯原理”所研究的範疇，作為計算機專業學生，它的重要性毫無質疑，自然也是必修...

彙編語言 C語言編程語言電腦中央處理器技術程序員程序設計 2019-08-28

'解密丨王者榮耀使用什麼編程語言開發的？原來\'卡頓\'原因是這樣'

"現在什麼手機遊戲最火？不用問，肯定是人人都在擼的“王者榮耀” ！但是隻會打遊戲，不去研究可不行。一直在想，像王者榮耀這樣火的遊戲是用什麼引擎和語言開發的？今天筆者就去找了一些相關的資料，整理出來了一篇小短文，分享給大家！開發引擎——Unity3DUnity3D是個遊戲引...

編程語言 Qwangzherongyao 電子遊戲 Linux Windows 腳本語言軟件遊戲引擎遊戲編程 Unity引擎 Java 騰訊微軟 C語言技術操作系統程序員 iOS 硬件 Mac電腦 2019-08-28

推薦中...