大數據學習之Spark快速入門指南(Quick Start Spark)

Spark Scala 大數據 Apache MapReduce Line Java Hadoop Word 跳槽那些事兒泛函編程 Python 95後碼農 2019-07-12

快速入門指南(Quick Start Spark)

這個文檔只是簡單的介紹如何快速地使用Spark。在下面的介紹中我將介紹如何通過Spark的交互式shell來使用API。

文章目錄

1 Basics
2 更多關於RDD上面的操作
3 Caching

Basics

Spark shell提供一種簡單的方式來學習它的API，同時也提供強大的方式來交互式地分析數據。Spark shell支持Scala和Python。可以通過以下方式進入到Spark shell中。

# 本文原文地址：https://www.iteblog.com/archives/1040.html

# 過往記憶，大量關於Hadoop、Spark等個人原創技術博客

./bin/spark-shell

Spark的一個基本抽象概念就是RDD，RDDs可以通過Hadoop InputFormats或者通過其他的RDDs通過transforming來得到。下面的例子是通過加載SPARK_HOME目錄下的README文件來構建一個新的RDD

scala> val textFile = sc.textFile("file:///spark-bin-0.9.1/README.md")

textFile:org.apache.spark.rdd.RDD[String]=MappedRDD[3]at textFile at <console>:1

RDDs提供actions操作，通過它可以返回值；同時還提供 transformations操作，通過它可以返回一個新的RDD的引用。如下：

scala> textFile.count() // Number of items in this RDD

res1: Long = 108

scala> textFile.first() // First item in this RDD

res2: String = # Apache Spark

我們再試試transformations操作，下面的例子中我們通過使用filter transformation來一個新的RDD：

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))

linesWithSpark: org.apache.spark.rdd.RDD[String] = FilteredRDD[4] at

filter at <console>:14

我們將transformations操作和actions操作連起來操作：

scala> textFile.filter(line => line.contains("Spark")).count()

res3: Long = 15

更多關於RDD上面的操作

RDD的transformations操作和actions操作可以用於更復雜的計算。下面的例子是找出README.md文件中單詞數最多的行有多少個單詞

scala> var size = textFile.map(line=>line.split(" ").size)

scala> size.reduce((a, b)=>if (a > b) a else b)

res4: Long = 15

map函數負責將line按照空格分割，並得到這行單詞的數量，而reduce函數將獲取文件中單詞數最多的行有多少個單詞。map和reduce函數的參數是Scala的函數式編程風格。我們可以直接用Java裡面的Math.max()函數，這樣會使得這段代碼更好理解

scala> import java.lang.Math

import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b)=>Math.max(a, b))

res10: Int = 15

我們比較熟悉的一種數據流模式是MapReduce，Spark可以很簡單地實現MapReduce流

scala> val wordCounts = textFile.flatMap(line => line.split(" "))

.map(word => (word, 1)).reduceByKey((a, b) => a + b)

wordCounts: org.apache.spark.rdd.RDD[(String, Int)] =

MapPartitionsRDD[16] at reduceByKey at <console>:15

在上面的代碼中，我們結合了flatMap，map和reduceByKey等transformations 操作來計算文件中每個單詞的數量，並生成一個(String, Int) pairs形式的RDD。為了計算單詞的數量，我們可以用collect action來實現：

scala> wordCounts.collect()

res11: Array[(String, Int)]=Array(("",120),(submitting,1),(find,1),(versions,4),

((`./bin/pyspark`).,1), (Regression,1), (via,2), (tests,2), (open,2),

(./bin/spark-shell,1), (When,1), (All,1), (download,1), (requires,2),

(SPARK_YARN=true,3), (Testing,1), (take,1), (project,4), (no,1),

(systems.,1), (file,1), (<params>`.,1), (Or,,1), (`<dependencies>`,1),

(About,1), (project's,3), (`<master>`,1), (programs,2),(given.,1),(obtained,1),

(sbt/sbt,5), (artifact,1), (SBT,1), (local[2],1), (not,1), (runs.,1), (you,5),

(building,1), (Along,1), (Lightning-Fast,1), (built,,1), (Hadoop,,1), (use,2),

(MRv2,,1), (it,2), (directory.,1), (overview,1), (2.10.,1),(The,1),(easiest,1),

(Note,1), (guide](http://spark.apache.org/docs/latest/configuration.html),1),

(setup,1), ("org.apache.hadoop",1),...

Caching

Spark可以將數據集存放在集群中的緩存中。這個在數據集經常被訪問的場景下很有用，比如hot數據集的查詢，或者像PageRank這樣的需要迭代很多次的算法。作為一個簡單的列子，下面是將我們自己的linesWithSpark dataset存入到緩存中：

scala> linesWithSpark.cache()

res12: org.apache.spark.rdd.RDD[String] =FilteredRDD[4] at filter at <console>:14

scala> linesWithSpark.count()

res13: Long = 15

scala> linesWithSpark.count()

res14: Long = 15

利用Spark來緩存100行的數據看起來有點傻，但是我們可以通過同樣的函數來存儲非常大的數據集，甚至這些數據集分佈在幾十或者幾百臺節點上。

相關推薦

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'數據不出本地，還能享受大數據訓練模型，聯邦學習提供一種學習新範式'

"聯邦學習，提出至今不過兩年而已~作者：Camel編輯：唐裡近日，聯邦學習概念的提出者之一 Blaise Aguëray Arcas 在韓國針對全球做了一個關於聯邦學習的在線workshop。Blaise Aguëray Arcas是2014年加入的谷歌，在此之前在微軟任傑...

人工智能大數據 Google 微軟技術韓國輸入法工程師楊強香港科技大學亞馬遜公司語音合成人生第一份工作 2019-09-15

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'如何用Python進行大數據挖掘和分析？快速入門路徑圖'

"大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。什麼是大數據？大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法制...

Python 大數據數據庫數據挖掘網絡爬蟲 SQL 算法可視化技術 Scrapy Google Excel 音樂 YouTube 租房隨機森林 2019-09-14

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'色彩搭配快速入門指南，你get到了嗎？'

"一個設計作品呈現到用戶面前，第一眼進入眼簾的就是產品的視覺表現，而產品的色彩在其中起到了舉足輕重的作用，毫無疑問色彩搭配對於設計師來說是非常重要的。那麼具體到實際項目中該使用什麼怎樣的色彩，需要怎麼做呢？下面我將逐步去分析。色輪的概念設計時不同電子終端上顯示的色彩都是基於...

設計最in買手君跳槽那些事兒設計師環境保護皮特·蒙德里安植物 2019-09-12

'智能大數據開放橋頭堡長江之要津跑出新速度'

"東北網9月6日訊(記者馬悅) 重慶江津，因“地處長江之要津”而得名。近年來，重慶市江津區搶抓“一帶一路”倡議和長江經濟帶發展機遇，立足重慶二環線上重要城市組團、重慶科學城南部創新中心、成渝城市群戰略支點等定位，加快推動產業轉型升級發展，推進“一軸兩翼”同城融城一體化發展...

大數據重慶廣西經濟家住長江邊技術東南亞國家聯盟雙福想象偉大的一平方公里交通設計原汁原味的德系SUV 能源人工智能投資德邦物流創業工業設計防城港 2019-09-09

'「大數據分析」學習大數據分析要什麼基礎，零基礎入門ok嗎？'

"身處21世紀的今天，數據分析行業急劇發展，越來越多的企業已經意識到大數據分析的重要性和發展潛力，同時越來越多的傳統行業公司開始轉型升級，開始引入並發展專屬自己的大數據分析部門及崗位。由此也滋生了越來越多的人想進入大數據領域——或許你是即將畢業的大學生，基於自己的文科背景擔...

大數據數據庫 Hadoop 機器學習編程語言 Linux 技術 Spark Windows SQL 虛擬機人生第一份工作 Java 電腦算法分佈式計算 CentOS 軟件 Ubuntu 大學 HDFS 2019-09-08

'大數據告訴你，少兒學習英語的最佳年齡'

"英語學習最佳的年齡段是什麼時候？怎麼讓孩子在學習英語時，既輕鬆又沒有壓力，還能應用到生活中？帶著這樣的問題，培培老師查訪了大量的資料，少兒英語學習，要從哪個年齡段開始最為合適呢？0-8歲的孩子在學習第二語言上有著成年人無法超越的優勢美國科學家曾經做過一個測試，就是對在移民...

英語不完美媽媽大數據讀書文化移民人生第一份工作 2019-09-08

'pandas所有基礎的操作乾貨都在這裡，大數據學習入門好資料'

"很多人想學數據處理，也知道pandas的強大之處，但學習的路上多少會有一些難處，今天這篇文章我將我整理的知識點分享給大家，希望對學習有所幫助，如果覺得文章寫得還可以請大家給我點個贊，關注一下，我會經常發表一些數據處理的文章。1 import語句import pandas ...

JSON 大數據數據庫操作系統文章 2019-09-08

'大佬喊話：python基礎知識實例，希望大家都能快速入門Python'

"今天小編就為大家分享一些Python的基礎知識，希望大家都能快速入門Python~1.在Python 語言中，對象是通過引用傳遞的。在賦值時，不管這個對象是新創建的，還是一個已經存在的，都是將該對象的引用（並不是值）賦值給變量。如：x=2 2這個整形對象被創建，然後將這個...

Python 機器學習工程師新創建集團 2019-09-05

'鴻卓課工場—應該學習更多的Java編程技術還是大數據和雲計算技術'

"首先，學習更多的編程技術與學習大數據和雲計算並不衝突，Java語言也是大數據和雲計算領域比較常見的開發工具，所以完全可以同步進行。隨著大數據、雲計算和人工智能相關技術的發展，目前從事技術開發的程序員崗位也出現了一些比較顯著的變化，從技術崗位上來看，有兩個崗位的人才需求數量...

Java 大數據技術雲計算程序員跳槽那些事兒電腦 2019-09-03

'eBay大賣都在用的“Promoted Listing”入門操作指南'

"無論何時，當你的eBay業務即將從一份副業變成一份全職工作時，你可能會開始尋找提高銷售速度的方法。eBay有一些工具可以幫助你取得成功，Promoted Listing可能是其中更簡單實惠的一種。本文為大家創建了eBay Promoted Listing的完整指南，讓你更...

eBay 市場營銷 Google 跳槽那些事兒亞馬遜法國英國加拿大原汁原味的德系SUV 2019-09-01

'值得收藏！13個大數據學習網站很少人知道！附大數據自學資料分享'

"數據分析重要性越來越多的管理者意識到數據分析對經濟發展、企業運營的重要意義在古代，得琅琊閣者得天下現在，得大數據者得天下我總結的數據分析五步走：1、鎖定分析目標，梳理思路，叫紙上談兵；2、把雜亂的數據整理出圖表報表，用數據探業務，叫自問數答；3、鎖定核心抓重點，設定最終...

大數據 Python 可視化技術算法機器學習自然語言處理數據挖掘編程語言收藏網絡爬蟲 SQL R語言經濟 2019-08-31

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'怎麼還在糾結學Java還是python，未來大數據才是王道，附學習教程'

"如今的大數據不再是一個流行術語，在大數據行業火熱的發展下，大數據幾乎涉及到所有行業的發展。國家相繼出臺的一系列政策更是加快了大數據產業的落地，預計未來幾年大數據產業將會蓬勃發展。未來大數據產業發展的趨勢之一：與雲計算、人工智能等前沿創新技術深度融合。大數據、雲計算、人工智...

大數據 Java 技術數據庫 Storm Python 工程師 Hadoop Spark 人生第一份工作電腦算法 HBase 雲計算 HDFS 人工智能 Hive Scala 設計王道 SQL MapReduce 2019-08-27

'大數據究竟是什麼？如何利用數據之眼賦能企業管理和決策？'

"如何做出最好、最正確的選擇，這是一道難題，即便是偉大的智人也會犯難。2500年前，著名的哲學家蘇格拉底帶領著他最優秀的幾個弟子，來到了一片麥田前。此時，正是麥子成熟的季節，金燦燦沉甸甸的麥穗，在麥田裡隨風搖曳。蘇格拉底對他優秀的弟子們說：“請你們走進麥田，一直往前不要回頭...

大數據蘇格拉底數學市場營銷啤酒小麥 2019-08-26

'IT大佬總結大數據個學習階段，每天兩小時，年薪百萬不是夢'

"本階段不需要編程，很多人聽過大數據，聽過人工智能，聽過數據挖掘。但是幾乎都有疑問：什麼是大數據？什麼是人工智能？大數據和人工智能能做什麼？等等。這一階段主要是答疑解惑，讓大家明白這些概念，至少在和高端人士茶餘飯後談論大數據和人工智能的時候可以不需要“一臉懵逼”。如果已經...

大數據 Hadoop MapReduce SQL 人工智能數據挖掘 Hive HDFS MySQL Linux Spark 網絡硬盤分佈式計算 Storm NoSQL 百度 2019-08-26

'如何看待藝人價值相關“大數據”？|藝人“帶貨力”之數據篇'

"作者|崔百珎編者按“真紅”還是“虛火”？不少人都看不懂如今娛樂圈中，藝人們的真實影響力。近兩年，影視娛樂行業的蓬勃發展，催生了一批又一批的年輕人，他們或以偶像的身份被大眾看見、或在影視作品中嶄露頭角，更或是在綜藝節目中有出彩表現......一時間，新人們的粉絲數量以驚人...

大數據傳媒百度百度貼吧週末綜藝指南 2019-08-26

'如何解讀藝人價值相關“大數據”？|藝人“帶貨力”之數據篇'

大數據傳媒百度百度貼吧週末綜藝指南 2019-08-25

推薦中...