大數據之Spark詞頻統計

編程語言 Spark Scala Word 軟件開發漫談 2017-06-04

準備工作

#進入spark目錄

cd /usr/local/spark

#新建代碼實驗目錄

mkdir demo_code

cd demo_code

#新建一個詞頻統計文件保存目錄

mkdir wordcount

cd wordcount

#新建一個包含了一些語句的文本文件，網上摘取一段文字，保存，退出

vim demoWord.txt

spark-shell運行詞頻統計

#進入spark目錄

cd /usr/local/spark

#啟動spark

./bin/spark-shell

#在scala中加載文本文件

val wordFile = sc.textFile("file:///usr/local/spark/demo_code/wordcount/demo_word.txt")

#查看內容

wordFile.first()

#計算詞頻統計方法

val wordCount = wordFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

#查看詞頻統計結果

wordCount.collect()

如圖所示：

大數據之Spark詞頻統計

spark-shell運行詞頻統計

Scala獨立程序實現詞頻統計

#進入詞頻統計文件目錄

cd /usr/local/spark/demo_code/wordcount/

#在詞頻統計文件目錄下，新建scala程序目錄

mkdir -p src/main/scala

#進入scala程序目錄

cd /usr/local/spark/demo_code/wordcount/src/main/scala

#新建scala程序文件，編寫程序，保存，退出

vim demo_word.scala

程序代碼如下所示：

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.SparkConf

object WordCount {

def main(args: Array[String]) {

val inputFile = "file:///usr/local/spark/demo_code/wordcount/demo_word.txt"

val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]")

val sc = new SparkContext(conf)

val wordFile = sc.textFile(inputFile)

val wordCount = wordFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

wordCount.foreach(println)

}

sbt編譯打包

#進入詞頻統計文件目錄

cd /usr/local/spark/demo_code/wordcount/

#新建sbt文件用於編譯程序，保存，退出

vim demo_word.sbt

編輯內容如下：

name := "demoWord Project"

version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

#編譯程序

/usr/local/sbt/sbt package

大數據之Spark詞頻統計

編譯成功

#運行程序

/usr/local/spark/bin/spark-submit --class "WordCount" /usr/local/spark/demo_code/wordcount/target/scala-2.11/demoword-project_2.11-1.0.jar

大數據之Spark詞頻統計

統計結果

Spark詞頻統計Demo介紹到這些

相關推薦

'今年內存大降價，低價可買高配置，16G內存條要不要入手？'

"內存在電腦中是一種不可缺少的存在，但是很多用戶對於內存變化的感知並不明顯，倒是這幾年的內存價格確實是一路下跌，現在花一樣的價格就可以買到升級版的內存條。400塊買到一塊8G內存，因此可以看出，內存在發展中的成本也逐步降低，更新換代的速度也是一直上漲，如果有預算的話，還是十...

電腦軟件中央處理器 FPS遊戲設計師筆記本電腦 Word 2019-09-19

'中秋佳節：沒編程合集大團圓！318本編出電子書籍➕視頻資料項目'

"中秋節佳節，小夥伴們都放假開心的回家團圓去了吧？這不、小編給你們帶來了更開心的事情、那就是給你們準備好了編程合集大團圓！全網最全編程語言視頻教程（從零基礎到大牛哦！）包含java、python、web、大數據、人工智能、等視頻教程+項目+源碼，現在免費分享給各位！[領取方...

Java 人工智能 Linux 技術腳本語言大數據 Node.js UNIX 程序設計設計 Python 數據庫移動互聯網 HTML HTML5 編程語言操作系統最圓不過中秋月網頁設計 CSS 程序員 JavaScript JSP 自然語言處理 GNU ASP IBM Velocity 讀書中央處理器硬件英語 PHP 文章 2019-09-17

'Word表格中的斜線表頭都會做嗎？幾種常用小方法分享給大家'

"Word表格中的斜線表頭都會做嗎？幾種常用小方法分享給大家：設置斜下框線選中單元格，然後點擊開始——邊框——斜下框線。直接插入兩個文本框，並且將填充顏色和邊框顏色設置為“無”，最後輸入你想要的內容。用形狀插入斜線點擊插入——形狀——直線，之後在相應的單元格中插入直線即可。...

Word 2019-09-16

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'為什麼SQL正在擊敗NoSQL，這對未來的數據意味著什麼'

"導讀：經過多年的沉寂之後，今天的SQL正在復出。緣由如何？這對數據社區有什麼影響？看看本文的分析。以下為譯文。自從可以利用計算機做事以來，我們一直在收集的數據以指數級的速度在增長，因此對於數據存儲、處理和分析技術的要求也越來越高。在過去的十年裡，由於SQL無法滿足這些要求...

SQL NoSQL Microsoft SQL Server 數據庫軟件技術 Azure 電腦 PostgreSQL MySQL BigTable MongoDB Hadoop Google MapReduce 亞馬遜公司 Cassandra Spark 工程師 IBM 編程語言 Aurora 程序設計人生第一份工作讀書可視化技術歷史數學 2019-09-14

'大數據平臺演進之路 | 淘寶 & 滴滴 & 美團'

"作者:王知無歡迎掃碼關注我的VX公眾號，回覆【JAVAPDF】可以獲得一份200頁秋招面試題~大數據技術與架構點擊右側關注，大數據開發領域最強公眾號！暴走大數據點擊右側關注，暴走大數據！聲明:本文參考了淘寶/滴滴/美團發表的關於大數據平臺建設的文章基礎上予以整理。參考鏈接...

大數據淘寶網美團網滴滴打車數據庫 MySQL HBase Hadoop HDFS SQL 網絡爬蟲數據挖掘技術雲計算 Spark 集成開發環境可視化技術人生第一份工作 MapReduce 推薦技術文章 Hive 跑步 2019-09-14

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'最佳實踐：讓 Serverless 架構拯救大數據'

"如果你聽說過 Serverless 的話，你可能會把它當做一種雲架構模式，可以將一個應用程序所需要的、長期維護的基礎設施數量降到比較低的水平。在某些場景下，這種方式可以節省很多成本。而且也確是是這樣的。但是在這篇文章裡面，我會在一個新的場景下，介紹相關的應用程序：高度並行...

大數據數據庫 Flask 操作系統 Python 硬件 Google Spark Azure 電腦微軟機器學習物理 2019-09-13

'巨頭“進城搶訂單”，智慧城市將成下個大熱風口？'

"9月10日，百度宣佈戰略投資東軟控股，投資金額高達14.43億元，這也成為百度在智慧城市解決方案裡的一個大手筆投資。受這一投資消息影響，9月10日，百度上漲4.2％，報109.47美元，成交額1.89億美元，市值381.547億美元。百度這一投資動作也引發業內很大討論，這...

技術百度阿里巴巴集團人工智能東軟集團投資京東商城騰訊我的第一部5G手機經濟交通阿里雲計算宿遷操作系統 Spark 能源大連 2019-09-12

'雲頂之弈卡池概率等六圖合一，玩遊戲再也不用邊玩邊看手機了'

"首先直接上圖，有的朋友看不清，請繼續看下去，讓你看清。如果看不清，那就利用一下word文檔-插入這些圖片，設置對象格式裡的版式設置成浮於文字上方，然後自己拖動搭配。然後效果就出來了。玩遊戲的時候打開這個word就可以了。下面是這些分解的圖片，第一張圖看不清的，保存編輯一下。"

Word 雲頂高原 2019-09-10

'玩手機不如自學一下Python，清華1000集視頻教程大彙總無償送給你'

"Python一句話概括：需要拿著遊標卡尺學習的語言python是一款服務器端解釋型開源非編譯腳本語言。它常被暱稱為膠水語言，能夠把用其他語言製作的各種模塊（尤其是C/C++）很輕鬆地聯結在一起。Python的優勢：Python學習簡單，被譽為“最易學習的語言”。Pytho...

Python MySQL Django Git Linux jQuery 物聯網人工智能 JavaScript C語言數據庫清華大學 HTML CSS 黑客機器學習人民的名義 MongoDB 大數據 Java 腳本語言路由器編程語言硬件算法操作系統 2019-09-10

'他畢業於麻省理工學院，4年的Python學習教程大彙總無償分享出來'

"什麼是Python？眾所周知，小學生教程裡面已經有Python了，國家二級計算機證也需要學習Python！因為Python簡單、入門快速，是不少學編程語言初學者的首選隨著時間發展，Python主要有一下5大用途Python能做什麼？1、web開發（月薪：10k—15k，平...

Python 讀書人工智能麻省理工學院 Linux 面向對象程序編程網絡爬蟲數據庫編程語言程序員設計技術硬件分佈式計算操作系統算法電腦 2019-09-09

'程序員薪資大調查，同為程序員，你的薪資最低真相究竟為何'

"最近爬了某招聘網站，獲取近一週的程序員工資18275條。其中，有工資的17628條(深圳4277，北京4892，上海5073，廣州3386)。本文分別從工資的分佈，工資和學歷，地域，工作經驗和公司的性質，規模，產業的關係進行了分門別類的統計，我們一起看下。這裡的程序員包括...

程序員人生第一份工作人工智能 Python 招聘算法上海技術廣州深圳 Java 編程語言 Stack Overflow 知乎機器學習工程師金融電腦 2019-09-09

'「大數據分析」學習大數據分析要什麼基礎，零基礎入門ok嗎？'

"身處21世紀的今天，數據分析行業急劇發展，越來越多的企業已經意識到大數據分析的重要性和發展潛力，同時越來越多的傳統行業公司開始轉型升級，開始引入並發展專屬自己的大數據分析部門及崗位。由此也滋生了越來越多的人想進入大數據領域——或許你是即將畢業的大學生，基於自己的文科背景擔...

大數據數據庫 Hadoop 機器學習編程語言 Linux 技術 Spark Windows SQL 虛擬機人生第一份工作 Java 電腦算法分佈式計算 CentOS 軟件 Ubuntu 大學 HDFS 2019-09-08

'程序員薪資狀況大起底，快來看看你能賺多少錢？'

"提到互聯網，尤其是互聯網工程師們，人們往往會想到兩個詞：“高薪”和“高壓”。今天達妹為大家整理了一份技術領域程序員們的薪資狀況報告，揭開程序員高薪的神祕面紗： 1、時間vs領域，哪個才是決定工程師們薪資的關鍵？ “一寸光陰一寸金”這件事，放在工作經驗來說尤其有道理。那...

人生第一份工作程序員工程師移動互聯網跳槽那些事兒 Python Scala PHP Node.js JavaScript 設計技術 Java C語言創業上海 Ruby 金融 iOS 杭州睡眠深圳 2019-09-07

'斯柯達也玩起了黑化？看到實車，怎跟想象落差這麼大'

"斯柯達在先前即預告，將於 2019 法蘭克福車展上，針對新世代產品 Kamiq 與 Scala 推出 Monte Carlo 特式車款。而在 9 月 10 日對媒體開展前，原廠即在 2 日於網站先行曝光 Scala Monte Carlo，實車將於車展上展出，預計第 4 ...

斯柯達汽車斯柯達野帝 Scala 汽車展覽法蘭克福車展掀背車跑車體育法蘭克福足球俱樂部歐洲 2019-09-06

'「大數據分析」深入淺出：如何從零開始學習大數據分析與挖掘'

"文章梳理了學習大數據挖掘分析的思路與步驟，給大家提供一些參考，希望能夠對你有所幫助。最近有很多人想學習大數據，但不知道怎麼入手，從哪裡開始學習，需要學習哪些東西？對於一個初學者，學習大數據分析與挖掘的思路邏輯是什麼？本文就梳理了如何從0開始學習大數據挖掘分析，學習的步驟思...

數據挖掘大數據數據庫算法機器學習 Python SPSS 可視化技術技術人生第一份工作工程師文章人工智能軟件編程語言深度學習 2019-09-05

'「大數據就業」大數據開發：成為大數據高級工程師都有哪些要求？'

"大數據平臺研發高級工程師工作職責：1、負責建設公司大數據平臺，為公司用戶提供穩定、易用的大數據平臺工具和便捷、酷炫的數據產品；2、參與並主導大數據平臺工具鏈的設計、開發以及後續維護；3、參與數據產品的研發，助力數據商業價值的發掘；4、不斷迭代優化已有大數據平臺工具和數據產...

大數據工程師技術設計 Hadoop Linux Spark 數據庫電腦 Java Hive 算法人生第一份工作數據結構 Docker 雲計算腳本語言 MySQL Storm 中標麒麟 Python PHP HBase 機器學習 Presto 2019-09-05

'編程語言學習之——Java'

"Java是一門面向對象編程語言，不僅吸收了C++語言的各種優點，還摒棄了C++裡難以理解的多繼承、指針等概念，因此Java語言具有功能強大和簡單易用兩個特徵。Java語言作為靜態面向對象編程語言的代表，極好地實現了面向對象理論，允許程序員以優雅的思維方式進行復雜的編程。J...

Java Java虛擬機編程語言程序員 NetBeans 集成開發環境 EditPlus IBM 設計 IntelliJ IDEA 軟件虛擬機人生第一份工作 Eclipse Sun公司 2019-09-05

'“流暢度將提升60%！”華為方舟編譯器正式和大眾見面'

"8月31日，華為公司對外公佈了“方舟編譯器”的開源官網鏈接，不少開發者對此驚喜不已。根據業內人士的解釋，方舟編譯器可以理解為將高級語言直接編譯為機器碼的一種技術，由該技術所轉出的機器碼能夠由CPU運算，從而使得整體操作系統變得流暢。一些網友也表示方舟編譯器能夠提升安卓系...

編譯器華為公司操作系統大眾汽車技術餘承東軟件 Android 編程語言中央處理器蘋果公司 2019-09-04

推薦中...