Spark 的學習使用

Spark 科技中國智慧城市 2017-06-25

最近一直在做數據統計相關的工作，主要是用 Spark 分析一些關鍵詞在微信中的傳播行為。這篇博客記錄一下學習的過程。

資源參數調優

使用公司的 Spark 平臺計算時，num_executors 設置的 1，導致每個任務需要跑 8 個多小時。num_executors=10 時僅需要 1 小時，num_executors=20 時需要 30 分鐘。繼續調整 num_executors=100 executor_cores=4 後需要 10 分鐘。這是由於參數設置不當導致資源沒有充分使用，跑任務任務浪費大量時間。

進行調優需要先大致瞭解 Spark 的基本運行原理：

num_executors 是執行器的個數，executor_cores 是執行器中 CPU 的個數。經過實踐，設置為下列參數比較合適。

num_executors ：每個 Spark 作業運行一般設置 50-100 個左右的 executor 進程比較合適

exucutor-memory：每個 executor 進程設置 4G-8G

executor_cores：決定每個 Executor 進程並行執行 task 線程的能力

driver-memory：1G 左右

代碼調優

1、對多次使用的 RDD 進行持久化

var rdd = sc.textFile(“file:///d:/one_day_index.txt”).cache

cache 方法使用非序列化的的方式將 RDD 中的數據全部持久化到內存中

2、避免使用 Shuffer 類算子

Shuffer 是把分佈在多個節點上的同一個 Key 的數據拉取到同一個節點上，進行聚合或 Join 等操作。如 ReduceByKey 或 Join 等操作。

3、使用 Kryo 優化序列化性能

Kryo 比 Java 自帶的序列化庫性能要高 10 倍左右。

理解 flatMap

一篇文章分詞後有 [文章編號，詞 1，詞 2，詞 3…] 這樣的數據，需要生成 [文章編號，詞 1] [文章編號，詞 2] [文章編號，詞 3] ，以便後面對相同的詞進行 Reduce，變為 [詞 1，文章編號 1，文章編號 2…]。相當於倒排一次。

統計函數 processLineToPair 輸入為 [三元組，詞 1，詞 2，詞 3…]，輸出為 Array[(String, DocObj)]，擔心的是這樣返回在 RDD 裡數據只有一行，但經過 flapMap 後就變為了 RDD[(String, DocObj)]，變為了多行保存在 RDD 中。

flatMap 的返回是一對多或一對零，而 Map 是一對一。

理解 reduceByKey

reduceByKey 的輸入和輸出是一樣的，經過 flapMap 後返回的 RDD 是有 Key:Value 的概念，所以可以默認去 ByKey 進行 Reduce。reduceByKey 的對象只能是 PairRDD。當需要把一個普通的 RDD 轉為 PairRDD 時間，可以調用 map 函數來實現，傳遞進 map 的函數需要返回鍵值對或者二元元組，二元元組會隱式轉換為 PairRDD。

base64 編解碼

base64 是把 3 個 8-bit 字節轉換為 4 個 6-bit 字節的編碼方式，Scala 中使用下面的方式

import org.apache.commons.codec.binary.Base64

Base64.decodeBase64(encode_uin)

Option 的使用

Option 可以包在返回值外面，相當於多了一個異常碼。返回為 none 則異常，返回為 Some 則正常。一般和 flapMap 結合使用。

SimpleModPartitioner 對結果進行分區

對數據進行 reduce 的時候可以指定保存結果的分區數，可以節省一步的 Shuffle。

rdd_hash_index.reduceByKey(new SimpleModPartitioner(2000), (v1, v2)

=> reduceMergeWord(v1, v2))

注意 rdd_hash_index 的 KEY 必須是數字才可以正確地 HASH

任務重跑時刪除文件夾

1、設置為直接覆蓋文件路徑，spark.hadoop.validateOutputSpecs 這種可能會導致以前的文件刪除不完全。

2、通過 spark 自帶的 hadoopconf 方式刪除

相關推薦

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'阿里巴巴程序員推出了的一份Linux 學習清單，這一定是你最需要的'

"第一階段Linux+搜索+hadoop體系Linux基礎→shell編程→高併發架構→lucene,solr搜索→hadoop體系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→項目實戰第二階段機器學習R語言→mahout...

Linux Spark 程序員 HDFS MapReduce Hadoop 大數據 HBase Storm 阿里巴巴集團 Java 工程師機器學習算法雲計算 Lucene Python Docker Hive 好好學習網絡硬盤 Solr 數據庫 R語言數據挖掘 2019-09-09

'「大數據分析」學習大數據分析要什麼基礎，零基礎入門ok嗎？'

"身處21世紀的今天，數據分析行業急劇發展，越來越多的企業已經意識到大數據分析的重要性和發展潛力，同時越來越多的傳統行業公司開始轉型升級，開始引入並發展專屬自己的大數據分析部門及崗位。由此也滋生了越來越多的人想進入大數據領域——或許你是即將畢業的大學生，基於自己的文科背景擔...

大數據數據庫 Hadoop 機器學習編程語言 Linux 技術 Spark Windows SQL 虛擬機人生第一份工作 Java 電腦算法分佈式計算 CentOS 軟件 Ubuntu 大學 HDFS 2019-09-08

'圍觀：使用Hadoop和ELK進行業務代碼分析！分分鐘捉到Bug'

"大數據是計算領域的新高地，它有望提供一種方法來應對二十一世紀不斷增長的數據生成。越來越多的大數據愛好者正在湧現，越來越多的公司正在採用各種大數據平臺，並希望提出以客戶為中心的解決方案，幫助他們在競爭激烈的市場中取得領先地位。雖然最常見的是使用大數據解決方案來推導針對業務收...

Hadoop 大數據軟件 ElasticSearch 銀行技術 SQL Spark HDFS 可視化技術人力資源 2019-09-03

'Hadoop是什麼，能幹什麼，怎麼使用'

"1、Hadoop是什麼1.1、小故事版本的解釋小明接到一個任務：計算一個100M的文本文件中的單詞的個數，這個文本文件有若干行，每行有若干個單詞，每行的單詞與單詞之間都是以空格鍵分開的。對於處理這種100M量級數據的計算任務，小明感覺很輕鬆。他首先把這個100M的文件拷貝...

Hadoop HDFS MapReduce 數據庫大數據電腦分佈式計算 Java Lucene 設計虛擬機 Spark 數據挖掘 2019-09-02

'想做程序員？看了這五種編程入門方法，學習和玩耍一樣'

"程序員要精通一門語言，還是要掌握多門語言?對於這個問題，公說公有理，婆說婆有理。技術更新太快，精通一門編程語言已經實屬不易，又怎麼好意思說精通多門語言呢?不過呢，當你精通一門語言同時，涉獵一下其他語言無傷大雅。這對於編程思想也是大有裨益的。每門設計語言都有其獨特的設計思想...

程序員 Python 技術 Django 工程師 jQuery Java Flash 網絡爬蟲人工智能數據庫 JavaScript 算法 Spark Smalltalk HTML 設計模式數據挖掘 Perl Linux 深度學習設計大數據分佈式計算 Storm MapReduce Scrapy 算術 JSP 編程語言 CSS Hadoop Nginx 電子商務 HBase Ruby 2019-08-29

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'怎麼還在糾結學Java還是python，未來大數據才是王道，附學習教程'

"如今的大數據不再是一個流行術語，在大數據行業火熱的發展下，大數據幾乎涉及到所有行業的發展。國家相繼出臺的一系列政策更是加快了大數據產業的落地，預計未來幾年大數據產業將會蓬勃發展。未來大數據產業發展的趨勢之一：與雲計算、人工智能等前沿創新技術深度融合。大數據、雲計算、人工智...

大數據 Java 技術數據庫 Storm Python 工程師 Hadoop Spark 人生第一份工作電腦算法 HBase 雲計算 HDFS 人工智能 Hive Scala 設計王道 SQL MapReduce 2019-08-27

'IT大佬總結大數據個學習階段，每天兩小時，年薪百萬不是夢'

"本階段不需要編程，很多人聽過大數據，聽過人工智能，聽過數據挖掘。但是幾乎都有疑問：什麼是大數據？什麼是人工智能？大數據和人工智能能做什麼？等等。這一階段主要是答疑解惑，讓大家明白這些概念，至少在和高端人士茶餘飯後談論大數據和人工智能的時候可以不需要“一臉懵逼”。如果已經...

大數據 Hadoop MapReduce SQL 人工智能數據挖掘 Hive HDFS MySQL Linux Spark 網絡硬盤分佈式計算 Storm NoSQL 百度 2019-08-26

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'Spark Streaming 場景應用'

"作者：徐勝國來源：數盟Spark Streaming 是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合我們的應用場景，介結我們在使用 Spark Streaming 方面的技術架構，並著重講解 Spark Streami...

Spark HDFS Apache 數據庫 Hadoop 技術分佈式計算 MongoDB 機器學習 ElasticSearch Twitter MySQL Storm 2019-08-14

'你是怎樣進行大數據之Spark性能分析和調優的？'

"Spark 的性能分析和調優很有意思，今天再寫一篇。主要話題是 shuffle，當然也牽涉一些其他代碼上的小把戲。以前寫過一篇文章，比較了幾種不同場景的性能優化，包括 portal 的性能優化，web service 的性能優化，還有 Spark job 的性能優化。Sp...

Spark 大數據算法跳槽那些事兒中央處理器 2019-08-14

'這是你見過的史上最全的Spark知識學習總結嗎？'

"RDD及其特點1、RDD是Spark的核心數據模型，但是個抽象類，全稱為Resillient Distributed Dataset，即彈性分佈式數據集。2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分佈在集群中的不同節點上，從而讓...

Spark HDFS Hadoop Numbers Hive 大數據 2019-08-14

'Linux和大數據有什麼關係？怎麼學習Linux？'

"Linux是一種自由和開放源代碼的類Unix操作系統，以Unix為原型改造的，一個多用戶多任務的操作系統，任何人都可以修改其代碼和頁面，主要的目的就是為了不收商業化的限制，服務器部署在linux系統上會更加高效穩定、安全。嚴格來講，Linux只是操作系統內核本身，但通常採...

Linux UNIX 大數據操作系統 CentOS 雲計算腳本語言 Hadoop 開源軟件軟件 Spark 搜索引擎技術讀書 Nginx Bash Red Hat Enterprise Linux 2019-08-11

'Spark內存管理之三：UnifiedMemoryManager分析'

"acquireExecutionMemory方法UnifiedMemoryManager中的accquireExecutionMemory方法：當前的任務嘗試從executor中獲取numBytes這麼大的內存該方法直接向ExecutionMemoryPool索要所需內存...

Spark 2019-08-09

'零基礎Hadoop學習之路你必須要知道的一些知識點'

"零基礎學Hadoop你必須要知道的一些知識點，在學習編程的路上，都沒有那麼容易的事情，畢竟成為一個優秀的程序員沒有數年之功，是很難成功的。章目錄:一、理論知識1.Hadoop的整體印象2.Hadoop的優勢3.Hadoop可以做什麼4.Hadoop結構4.1 Hadoop...

Hadoop HDFS MapReduce 軟件 Lucene 程序員 Linux Java MySQL 大數據 Spark Apache 分佈式計算數據庫電腦機器學習酷狗音樂搜索引擎設計 2019-08-08

'Spark內存管理之二：統一內存管理及設計理念'

"堆內內存Spark 1.6之後引入的統一內存管理機制，與靜態內存管理的區別在於Storage和Execution共享同一塊內存空間，可以動態佔用對方的空閒區域其中最重要的優化在於動態佔用機制，其規則如下：設定基本的Storage內存和Execution內存區域（spark...

Spark 設計 Java 數據結構 Java虛擬機 2019-08-07

'一文讀懂大數據平臺；寫給大數據開發初學者的話，大數據學習過程'

"本文旨在為普通程序員（有基礎最佳）提供一個入門級別的大數據技術學習路徑，不適用於大數據工程師的進階學習，也不適用於零編程基礎的同學。前言：一、背景介紹二、大數據介紹正文：一、大數據相關的工作介紹二、大數據工程師的技能要求三、大數據學習規劃四、持續學習資源推薦（書籍，博客，...

大數據 HDFS Linux Python Java虛擬機 Storm Java MapReduce Spark Scala 腳本語言 Hadoop 工程師跳槽那些事兒程序員虛擬機 GFS Hive 數據結構軟件數據挖掘 R語言中標麒麟技術操作系統 HBase Excel 卡帕機器學習算法 SQL 分析師 2019-08-07

'Linux環境Spark安裝配置及使用（三）'

"7. Spark RDD的高級算子(1) mapPartitionsWithIndex把每個partition中的分區號和對應的值拿出來def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ⇒ Iterator[U], p...

Spark Linux Scala 2019-08-06

推薦中...