spark系列：Spark Streaming官方文檔譯文

Spark 數據庫 Java虛擬機虛擬機機器學習 Hadoop HDFS IT技術百貨 2019-05-20

概述

spark stream是對spark core api的擴展；對於spark core不太瞭解的請閱讀：spark系列：spark core 數據交互技術點（數據模型）。所以本質上是通過批處理來模擬流處理。

spark stream的流數據源可以來自Kafka, Flume, Kinesis, 或 TCP sockets甚至是文件。

spark stream

對於流數據可以做很多複雜的處理（只有想不到，沒有做不到的），如map操作、reduce操作、join操作，甚至是在線訓練機器學習模型等等。

最終處理完之後的數據可以寫入各種文件系統，如HDFS、數據庫等等。

內部機制

spark stream模塊接收流數據，並按照時間維度將其分割成一段段的小量的批數據，然後通過spark core引擎來處理。

批處理模擬流處理

對外提供的接口本質上是對離散小批量數據（discretized stream or DStream）的處理來模擬的流數據。

基本概念

jar依賴

開發spark stream流處理程序，需要添加如下依賴：

<dependency>
 <groupId>org.apache.spark</groupId>
 <artifactId>spark-streaming_2.11</artifactId>
 <version>2.4.0</version>
</dependency>

對於外部數據源是kafka、Flume、Flume的，需要額外添加如下依賴：

jar 依賴

初始化上下文

val spark = SparkSession.builder()
 .appName("wordCount")
 .master("local[*]")
 .getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
val ssc = new StreamingContext(spark.sparkContext, Seconds(2))

關鍵參數：Seconds(2) 是流數據的窗口長度；

接入數據源

val lines = ssc.textFileStream("/home/panteng/桌面/stream")//文件
val lines = ssc.socketTextStream("localhost", 9999)//TcpSocket

定義計算流程

/**
 * DEMO:每隔6秒鐘統計最近30秒的數據，每隔1分鐘存儲一次
 * 應用場景：每天更新用戶最近30天的行為數據
 *
 * @param ssc StreamingContext
 */
def socketStreamWindow(ssc: StreamingContext): Unit = {
 val lines = ssc.socketTextStream("localhost", 9999)
 val statistics = lines.flatMap(_.split(" "))
 .map(w => (w, 1))
 .reduceByKeyAndWindow((a: Int, b: Int) => a + b, Seconds(30), Seconds(6))
 statistics.print()
 statistics.window(Minutes(1), Minutes(1))
 .repartition(1).saveAsTextFiles("/home/xxx/IdeaProjects/hadoop-ecological/output/time")
 ssc.start()
 ssc.awaitTermination()
}

啟動

ssc.start()

一旦啟動之後，就不能在定義新的處理流程。

上下文被關閉，則不能夠重新啟動

一個JVM虛擬機中只能有一個StreamingContext處於活躍（active）狀態

默認情況下關閉StreamingContext，也會關閉sparkContext；可以通過參數設置只關閉前者。

核心概念（Dstream）

Dstream是由一系列連續的RDD構成的有序集合。每一個RDD代表一段固定長度時間間隔內的數據。

Dtream

對Dtream的操作實際上是對一系列的RDD操作。

接收者（Receivers）

receiver的作用是從流數據源接受數據，並存儲曹spark應用的內存中，等待後期處理。

一般來講，在一個worker/excutor中，一個數據流對應一個receiver，如果一個worker有多個數據流，那麼需要對應多個receiver，這是必須保證worker的core數量大於receiver的數量，否則只能接受數據，但不能處理。

Transform操作

transform是將一個RDD轉成另一個RDD的操作，接受一個rdd->rdd的函數，並且可以引用外部的rdd。好神奇的一個操作，

val spamInfoRDD = ssc.sparkContext.newAPIHadoopRDD(...) // RDD containing spam information
val cleanedDStream = wordCounts.transform { rdd =>
 rdd.join(spamInfoRDD).filter(...) // join data stream with spam information to do data cleaning
 ...
}

窗口操作

兩個關鍵參數窗口長度和移動長度。並且提供了與窗口有關的一系列曹組。如：reduceByWindow、reduceByKeyAndWindow等。

Window Operations

spark系列文章，歡迎關注查看：

spark系列：spark core 數據交互技術點（數據模型）

spark系列:RDD、DataSet、DataFrame的區別

spark系列：spark生態組件與應用場景

spark系列：常見問題TOP5及解決方案

相關推薦

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'iPhone 11 系列跑分曝光，運存4GB？'

"說重點：知名跑分軟件 GeekBench 數據庫中，出現了三款iPhone手機跑分，跑分結果上可見，這三款iPhone 運行內存都達到 4GB ，另外！還分享了跑分數據，比上一代 iPhone XS 很明顯的提升。接下來，詳細說一下內容在9月12日和13日，知名跑分軟件 ...

iPhone 軟件 iOS 數據庫安兔兔 2019-09-15

'蘋果發佈iPhone11系列三款手機，AI技術後置3攝重塑拍攝王者'

"蘋果發佈了iPhone 11、11 Pro和11 Pro MAX特別活動在加州庫比蒂諾的未來主義校園舉行。新手機取代了iPhoneXR, iPhoneXS和iPhone XS MAX2018年年底發佈的設備系列。蘋果(Apple)首席執行官蒂姆·庫克(Tim Cook)在...

iPhone 智能手機技術蘋果公司照相機杜比實驗室人工智能設計機器學習蒂姆·庫克華為公司 2019-09-14

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'iPhone 11系列正式亮相！5499起售，標配18W充電頭'

"北京時間9月11日凌晨1點，蘋果2019秋季新品發佈會在加州總部的喬布斯劇院舉行。蘋果正式推出了新一代iPhone 11系列手機，包括iPhone 11和iPhone 11 Pro。iPhone 11——iPhone XR的升級版iPhone 11正面依然沿用劉海屏設計，...

iPhone 智能手機 iOS 蘋果公司設計 iPad GPU 中央處理器機器學習 Mac電腦浴霸 Apple Watch 硬件 iPhone 6s 2019-09-13

'華為發佈麒麟990系列 Mate 30首發集成5G'

"9月6日，華為在德國柏林與北京同步發佈了最新的旗艦級芯片——麒麟990系列，該系列包括了5G集成版本與4G版本，它們將針對不同的市場，靈活的面向全球消費者。其中，麒麟990 5G是全球首款旗艦5G SoC芯片，在性能與能效、AI智慧算力及ISP拍攝能力等方面進行全方位升級...

我的第一部5G手機華為公司技術華為Mate 智能手機 GPU 人工智能麒麟啤酒中央處理器設計機器學習原汁原味的德系SUV 列奧納多·達·芬奇 2019-09-13

'Spring Boot 系列：手把手帶你入門 Spring Security'

"Spring Security 是 Spring 家族中的一個安全管理框架，實際上，在 Spring Boot 出現之前，Spring Security 就已經發展了多年了，但是使用的並不多，安全管理這個領域，一直是 Shiro 的天下。相對於 Shiro，在 SSM/S...

Java 瀏覽器數據庫 2019-09-12

'谷歌廣告推出季節性廣告調整功能，現可用於搜索廣告、展示廣告系列'

"在促銷期間，谷歌的出價算法可以讓你更好地瞭解短期廣告轉換率變化。今年5月谷歌在Google Marketing Live上演示的季節性調整功能，現在可用於搜索和展示廣告系列。為什麼要用谷歌廣告季節性調整功能？谷歌的tCPA和tROAS智能競標策略考慮到了大規模的季節性變化...

Google 算法機器學習高峰 2019-09-08

'產城融合的杭州樣本系列報道① | 阿里巴巴：算力時代破解數字經濟“杭州密碼”'

"正文共：2546 字2 圖預計閱讀時間：7 分鐘開篇語：《禮記·曲禮上》：“二十曰弱冠。”9月10日，阿里巴巴即將迎來20週年。弱冠之年，封狼居胥。即將“加冠”的阿里巴巴，值得我們認真研讀。在杭州有一句名言，“我負責陽光雨露，你負責茁壯成長”。有效市場和有為政府，在這裡...

阿里巴巴集團杭州經濟阿里雲計算移動支付電子商務張勇西湖讀書中國中央電視臺創業技術讓夢發生高峰馬雲人生第一份工作設計支付寶數據庫淘寶網天貓百度寧波物理中央處理器 2019-09-08

'Nature Milestones系列 | 微生物裡有大文章！抗生素困境'

"「編者按」Hi，歡迎回來。上一期我們通過對大事件的梳理解答了“細菌孤獨麼？“ 等問題。本期[人類微生物研究里程碑事件]將為大家奉上以下大事件：· 2006年是誰調節了誰（II）？· 2006年訓練你的「小夥伴」（II）· 2006年攻防戰略· 2007年聯合分析·...

心血管病文章大腸桿菌糖尿病遺傳機器學習吃在四海八方巴爾幹半島癌症動物 2019-09-05

'Spring Boot 系列（二）：如何優雅的使用 MyBatis-Plus'

"這篇文章就給大家介紹一下，如何在 Spring Boot 中整合 MyBatis-Plus 使用 MyBatis。MyBatis-Plus 介紹MyBatis-Plus（簡稱 MP）是一個 MyBatis 的增強工具，在 MyBatis 的基礎上只做增強不做改變，為簡化開...

數據庫 SQL Microsoft SQL Server MySQL MariaDB 文章 2019-08-29

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'“龍頭時代”系列報告之一：星巴克成長啟示錄'

"咖啡的上游主要包含咖啡樹的種植等生產環節，而生產環節與咖啡的起源關聯較大，目前普遍認為咖啡樹原產於埃塞俄比亞的KAFFA，隨著一批批非洲的奴隸被販賣到各地，種植咖啡的習俗也被帶到各地。據相關資料，公元前525年時阿拉伯人開始種植咖啡。盛傳的牧羊人的故事也被認為是咖啡由來的...

咖啡星巴克咖啡雲南數據庫埃塞俄比亞非洲羅馬荷蘭農產品烘焙水果也門山羊語言 2019-08-23

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'Java程序員後端架構技術圖譜：Spring系列+MySQL+Redis+數據結構等'

"彙集整理Java後端技術領域（Java基礎，Spring，SpringMVC，MyBatis，Spring Cloud Spring Boot，Redis，Nginx，MySQL優化，JVM，Kafka，數據結構與算法，分佈式，微服務等）學習技能圖譜，幫助Java程序員梳...

Java MySQL 程序員數據結構 Redis 技術算法 Java虛擬機 Nginx 數據庫 2019-08-20

'「深度學習系列」卷積神經網絡CNN原理詳解(一)——基本原理'

"上篇文章我們給出了用paddlepaddle來做手寫數字識別的示例，並對網絡結構進行到了調整，提高了識別的精度。有的同學表示不是很理解原理，為什麼傳統的機器學習算法，簡單的神經網絡(如多層感知機)都可以識別手寫數字，我們要採用卷積神經網絡CNN來進行別呢？CNN到底是怎麼...

人工智能深度學習 CNN 瓜子機器學習算法數學設計文章西瓜語音識別技術冬瓜 2019-08-19

'大學專業分析系列——數學專業真有傳說中那麼恐怖嗎？'

"中國大學專業就業分析系列第17期——數學專業就業方向分析上期回顧：工業設計專業就業分析下期預告：船舶檢驗專業就業分析大眾化的眼光看來，畢業後的就業前景無非是當老師或者搞科研，似乎太古板且就業道路狹窄。然而，這些都是偏見，數學專業畢業早已是金融界、IT界、科研界的“香餑餑...

數學大學地球科學電腦技術經濟人生第一份工作計算化學社會科學化學設計工業設計軟件環境科學力學生物自然科學數據庫材料科學金融界博弈論 2019-08-15

'Spark Streaming 場景應用'

"作者：徐勝國來源：數盟Spark Streaming 是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合我們的應用場景，介結我們在使用 Spark Streaming 方面的技術架構，並著重講解 Spark Streami...

Spark HDFS Apache 數據庫 Hadoop 技術分佈式計算 MongoDB 機器學習 ElasticSearch Twitter MySQL Storm 2019-08-14

'你是怎樣進行大數據之Spark性能分析和調優的？'

"Spark 的性能分析和調優很有意思，今天再寫一篇。主要話題是 shuffle，當然也牽涉一些其他代碼上的小把戲。以前寫過一篇文章，比較了幾種不同場景的性能優化，包括 portal 的性能優化，web service 的性能優化，還有 Spark job 的性能優化。Sp...

Spark 大數據算法跳槽那些事兒中央處理器 2019-08-14

'這是你見過的史上最全的Spark知識學習總結嗎？'

"RDD及其特點1、RDD是Spark的核心數據模型，但是個抽象類，全稱為Resillient Distributed Dataset，即彈性分佈式數據集。2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分佈在集群中的不同節點上，從而讓...

Spark HDFS Hadoop Numbers Hive 大數據 2019-08-14

推薦中...