spark基礎知識

Spark 機器學習 Scala Hadoop 大數據之門 2017-05-28

1.Spark是什麼?

UCBerkeley AMPlab所開源的類HadoopMapReduce的通用的並行計算框架

dfsSpark基於mapreduce算法實現的分佈式計算，擁有HadoopMapReduce所具有的優點;但不同於MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的map reduce的算法。

2.Spark與Hadoop的對比(Spark的優勢)

1、Spark的中間數據放到內存中，對於迭代運算效率更高

2、Spark比Hadoop更通用

3、Spark提供了統一的編程接口

4、容錯性– 在分佈式數據集計算時通過checkpoint來實現容錯

5、可用性– Spark通過提供豐富的Scala, Java，Python API及交互式Shell來提高可用性

3.Spark有那些組件

1、Spark Streaming：支持高吞吐量、支持容錯的實時流數據處理

2、Spark SQL， Data frames: 結構化數據查詢

3、MLLib：Spark 生態系統裡用來解決大數據機器學習問題的模塊

4、GraphX是構建於Spark上的圖計算模型

5、SparkR是一個R語言包，它提供了輕量級的方式使得可以在R語言中使用 Spark

4.DataFrame是什麼?

DataFrame是一種以RDD為基礎的分佈式數據集，類似於傳統數據庫中的二維表格。

5.DataFrame與RDD的主要區別在於?

DataFrame帶有schema元信息，即DataFrame所表示的二維表數據集的每一列都帶有名稱和類型。這使得SparkSQL得以洞察更多的結構信息，從而對藏於DataFrame背後的數據源以及作用於DataFrame之上的變換進行了針對性的優化，最終達到大幅提升運行時效率的目標。反觀RDD，由於無從得知所存數據元素的具體內部結構，Spark Core只能在stage層面進行簡單、通用的流水線優化。

6.DataFrame 特性

1、支持從KB到PB級的數據量

2、支持多種數據格式和多種存儲系統

3、通過Catalyst優化器進行先進的優化生成代碼

4、通過Spark無縫集成主流大數據工具與基礎設施

5、API支持Python、Java、Scala和R語言

7.RDD

Resilient Distributed Datasets，意為容錯的、並行的數據結構，可以讓用戶顯式地將數據存儲到磁盤和內存中，並能控制數據的分區。同時，RDD還提供了一組豐富的操作來操作這些數據。

8.RDD的特點

它是在集群節點上的不可變的、已分區的集合對象。
通過並行轉換的方式來創建如(map, filter, join, etc)。
失敗自動重建。
可以控制存儲級別(內存、磁盤等)來進行重用。
必須是可序列化的。
是靜態類型的。

9.RDD核心概念

Client：客戶端進程，負責提交作業到Master。

Master:Standalone模式中主控節點，負責接收Client提交的作業，管理Worker，並命令Worker啟動分配Driver的資源和啟動Executor的資源。

Worker：Standalone模式中slave節點上的守護進程，負責管理本節點的資源，定期向Master彙報心跳，接收Master的命令，啟動Driver和Executor。

Driver：一個Spark作業運行時包括一個Driver進程，也是作業的主進程，負責作業的解析、生成Stage並調度Task到Executor上。包括DAGScheduler，TaskScheduler。

Executor：即真正執行作業的地方，一個集群一般包含多個Executor，每個Executor接收Driver的命令Launch Task，一個Executor可以執行一到多個Task。

10.RDD常見術語

DAGScheduler：實現將Spark作業分解成一到多個Stage，每個Stage根據RDD的Partition個數決定Task的個數，然後生成相應的Task set放到TaskScheduler中。

TaskScheduler：實現Task分配到Executor上執行。

Task：運行在Executor上的工作單元

Job：SparkContext提交的具體Action操作，常和Action對應

Stage：每個Job會被拆分很多組任務(task)，每組任務被稱為Stage，也稱TaskSet

RDD：Resilient Distributed Datasets的簡稱，彈性分佈式數據集，是Spark最核心的模塊和類

Transformation/Action：SparkAPI的兩種類型;Transformation返回值還是一個RDD，Action返回值不少一個RDD，而是一個Scala的集合;所有的Transformation都是採用的懶策略，如果只是將Transformation提交是不會執行計算的，計算只有在Action被提交時才會被觸發。

DataFrame：帶有Schema信息的RDD，主要是對結構化數據的高度抽象。

DataSet：結合了DataFrame和RDD兩者的優勢，既允許用戶很方便的操作領域對象，又具有SQL執行引擎的高效表現。

相關推薦

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'大佬喊話：python基礎知識實例，希望大家都能快速入門Python'

"今天小編就為大家分享一些Python的基礎知識，希望大家都能快速入門Python~1.在Python 語言中，對象是通過引用傳遞的。在賦值時，不管這個對象是新創建的，還是一個已經存在的，都是將該對象的引用（並不是值）賦值給變量。如：x=2 2這個整形對象被創建，然後將這個...

Python 機器學習工程師新創建集團 2019-09-05

'Python基礎知識大彙總--從放棄到入門'

"1、python版本選擇初學python的同學，你可能知道有python2或者python3兩個不同的版本，有些較老的視頻或者較舊的文檔還在推崇python2，認為python2比較穩定，很多公司都在用python2，python3有很多bug。但是小編在這裡想說，201...

Python 全國計算機等級考試 IntelliJ IDEA 集成開發環境 Windows PyCharm 編譯器 Eclipse Notepad++ 機器學習 Java 網絡爬蟲 2019-09-02

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'Spark Streaming 場景應用'

"作者：徐勝國來源：數盟Spark Streaming 是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合我們的應用場景，介結我們在使用 Spark Streaming 方面的技術架構，並著重講解 Spark Streami...

Spark HDFS Apache 數據庫 Hadoop 技術分佈式計算 MongoDB 機器學習 ElasticSearch Twitter MySQL Storm 2019-08-14

'你是怎樣進行大數據之Spark性能分析和調優的？'

"Spark 的性能分析和調優很有意思，今天再寫一篇。主要話題是 shuffle，當然也牽涉一些其他代碼上的小把戲。以前寫過一篇文章，比較了幾種不同場景的性能優化，包括 portal 的性能優化，web service 的性能優化，還有 Spark job 的性能優化。Sp...

Spark 大數據算法跳槽那些事兒中央處理器 2019-08-14

'這是你見過的史上最全的Spark知識學習總結嗎？'

"RDD及其特點1、RDD是Spark的核心數據模型，但是個抽象類，全稱為Resillient Distributed Dataset，即彈性分佈式數據集。2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分佈在集群中的不同節點上，從而讓...

Spark HDFS Hadoop Numbers Hive 大數據 2019-08-14

'Spark內存管理之三：UnifiedMemoryManager分析'

"acquireExecutionMemory方法UnifiedMemoryManager中的accquireExecutionMemory方法：當前的任務嘗試從executor中獲取numBytes這麼大的內存該方法直接向ExecutionMemoryPool索要所需內存...

Spark 2019-08-09

'Spark內存管理之二：統一內存管理及設計理念'

"堆內內存Spark 1.6之後引入的統一內存管理機制，與靜態內存管理的區別在於Storage和Execution共享同一塊內存空間，可以動態佔用對方的空閒區域其中最重要的優化在於動態佔用機制，其規則如下：設定基本的Storage內存和Execution內存區域（spark...

Spark 設計 Java 數據結構 Java虛擬機 2019-08-07

'Linux環境Spark安裝配置及使用（三）'

"7. Spark RDD的高級算子(1) mapPartitionsWithIndex把每個partition中的分區號和對應的值拿出來def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ⇒ Iterator[U], p...

Spark Linux Scala 2019-08-06

'用14張神圖概括Python所有基礎知識，讓你開開眼（有福利）'

"本文主要涵蓋了 Python 編程的核心知識（暫不包括標準庫及第三方庫）。1、按順序依次展示了以下內容的一系列思維導圖：基礎知識，數據類型（數字，字符串，列表，元組，字典，集合），條件&循環，文件對象，錯誤&異常，函數，模塊，面向對象編程；2、結合這些思維...

Python 面向對象程序編程機器學習工程師泛函編程軟件 2019-08-06

'Linux環境Spark安裝配置及使用（六）'

"12. 認識 Spark Streaming(1) Spark Streaming 簡介流式計算框架（類似於Storm）常用的實時計算引擎（流式計算）<1>. Apache Storm：真正的流式計算<2>. Spark Streaming ：嚴格...

Spark Linux Apache 數據庫 Scala 算法 Storm Python 機器學習 Java 2019-08-04

'Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式'

"Spark 大數據處理框架簡介Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架。Spark，擁有Had...

Spark 大數據 Hadoop HDFS Amazon EC2 Storm 機器學習 MapReduce 設計 HBase Hive 數據挖掘軟件技術 SQL 加州大學伯克利分校 Cassandra Java 亞馬遜公司 UC瀏覽器算法 Python 2019-07-29

'TalkingData的Spark On Kubernetes實踐'

"眾所周知，Spark是一個快速、通用的大規模數據處理平臺，和Hadoop的MapReduce計算框架類似。但是相對於MapReduce，Spark憑藉其可伸縮、基於內存計算等特點，以及可以直接讀寫Hadoop上任何格式數據的優勢，使批處理更加高效，並有更低的延遲。實際上，...

Spark Linux Hadoop MapReduce 路由器硬件 Calico 大數據 2019-07-28

'真詳細，五年Python大咖花了一週歸納出來的python基礎知識實例'

"7月的編程語言指數榜已經發布，Python 在今年5月首次超越 Java 拿下榜首位置後，仍保持上漲趨勢，正逐漸與 Java 拉開差距。（圖為與去年 7 月數據對比）今天小編就為大家分享一些Python的基礎知識，希望大家都能快速入門Python~1.在Python 語言...

Python Java 機器學習工程師編程語言新創建集團 2019-07-21

'尋找數據統治力：比較Spark和Flink'

"大數據文摘授權轉載自數據派THU作者：王海濤本篇文章屬於阿里巴巴Flink系列文章之一。當提及大數據時，我們無法忽視流式計算的重要性，它能夠完成強大的實時分析。而說起流式計算，我們也無法忽視最強大的數據處理引擎：Spark和Flink。Apache Spark自2014年...

Spark 大數據數據庫技術 MapReduce Hadoop Apache 機器學習 Google 編程語言文章阿里巴巴集團 2019-07-17

'DataBricks推出新一代開源大殺器Delta Lake，助力Spark一統天下'

"DataBricks最近新開源了一個項目Delta Lake。這其實不算是個新項目了。DataBricks在其商業版裡面提供這樣的功能已經有一段時日了。對我來說Delta Lake就是久聞大名，但是不知道廬山真面目。當然以DataBricks一貫的既要為人民服務，更要為人...

Spark 技術大數據數據庫 PowerPoint 軟件設計 Hive 微軟 Storm 2019-07-16

深度分析Spark最新大殺器Delta Lake

DataBricks最近新開源了一個項目Delta Lake。這其實不算是個新項目了。DataBricks在其商業版裡面提供這樣的功能已經有一段時日了。對...

Spark 數據庫大數據技術 PowerPoint 軟件 Hive 設計 Storm 微軟工業設計 2019-07-15

推薦中...