當MongoDB遇見Spark

NoSQL Spark MongoDB HDFS 極客左右 2017-04-03

適宜讀者人群

正在使用Mongodb的開發者

傳統Spark生態系統和 MongoDB在Spark生態的角色

傳統Spark生態系統

當MongoDB遇見Spark

Spark生態系統

那麼Mongodb作為一個database, 可以擔任什麼樣的角色呢? 就是數據存儲這部分, 也就是圖中的黑色圈圈HDFS的部分, 如下圖

用MongoDB替換HDFS後的Spark生態系統

當MongoDB遇見Spark

Spark+Mongodb生態系統

為什麼要用MongoDB替換HDFS

存儲方式上, HDFS以文件為單位,每個文件64MB~128MB不等, 而MongoDB作為文檔數據庫則表現得更加細顆粒化
MongoDB支持HDFS所沒有的索引的概念, 所以在讀取上更加快
MongoDB支持的增刪改功能比HDFS更加易於修改寫入後的數據
HDFS的響應級別為分鐘, 而MongoDB通常是毫秒級別
如果現有數據庫已經是MongoDB的話, 那就不用再轉存一份到HDFS上了
可以利用MongoDB強大的Aggregate做數據的篩選或預處理

MongoDB Spark Connector介紹

支持讀取和寫入,即可以將計算後的結果寫入MongoDB
將查詢拆分為n個子任務, 如Connector會將一次match,拆分為多個子任務交給spark來處理, 減少數據的全量讀取

MongoDB Spark 示例代碼

計算用類型Type=1的message字符數並按userid進行分組

開發Maven dependency配置

這裡用的是mongo-spark-connector_2.11 的2.0.0版本和spark的spark-core_2.11的2.0.2版本

 <dependency>

示例代碼

 import com.mongodb.spark._ import org.apache.spark.{SparkConf, SparkContext} import org.bson._ val conf = new SparkConf()

相關推薦

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'MongoDB，Redis，Memcache三者之間的優缺點你真的明白？'

"前面兩期給大家講解了nosql，記以及三者之間的區別今天這期主要給大家介紹下這三者的優缺點分別是什麼？看完之後希望能有夠對這三個有一個更加深入的認識MongoDB優缺點優點1，內置GridFS，支持大容量的存儲， GridFS是一個出色的分佈式文件系統，可以支持海量的數據...

Redis Memcached MongoDB 中央處理器硬件 NoSQL MySQL 大數據數據庫 2019-09-15

'Hadoop、Storm、Samza、Spark和Flink大數據框架分析'

"大數據是收集、整理、處理大容量數據集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一臺計算機的上限，但這種計算類型的普遍性、規模，以及價值在最近幾年才經歷了大規模擴展。本文將介紹大數據系統一個最基本的組件：處理框架。處理框架負責...

Hadoop 大數據 Storm Spark HDFS Apache MapReduce 技術設計電腦歷史 2019-09-14

'Apache Spark：彈性分佈式數據集'

"RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富...

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 2019-08-27

'聊聊Hadoop、Storm、Spark Streaming、Flink在大數據領域的現狀'

"Hadoop 生態組件競爭激烈，Spark 優勢明顯，MapReduce 已進入維護模式曾有開發人員表示，Hadoop 主要是被 MapReduce 拖累了，其實 HDFS 和 YARN 都還不錯。堵俊平（騰訊雲專家研究員）則認為 MapReduce 拖累 Hadoop...

Hadoop Spark 大數據 Storm MapReduce Hive HDFS SQL 技術 Presto Docker 機器學習騰訊雲計算 2019-08-20

'MongoDB 是什麼？看完你就知道了'

"點擊上方藍色字體，選擇“置頂公眾號”優質文章，第一時間送達鏈接 | blog.csdn.net/hayre/article/details/806284311.MongoDB是什麼？用一句話總結MongoDB是一款為web應用程序和互聯網基礎設施設計的數據庫管理系統。沒錯...

MongoDB 數據庫 MySQL SQL NoSQL JSON 數據結構操作系統技術設計文章 Redis 2019-08-19

'mongodb索引--1億條記錄的查詢從55.7秒到毫秒級別'

"從頭開始，驗證mongodb的索引的好處。(window7環境下)1 下載mongodb服務器，並解壓到d盤，並使用以下命令啟動 mongod --dbpath D:\\mongodb\\data2 mongo客戶端Robo 3T 去官網下載，安裝3 準備數據，條數為1億...

MongoDB 數據庫數據結構 2019-08-18

'Spark Streaming 場景應用'

"作者：徐勝國來源：數盟Spark Streaming 是一套優秀的實時計算框架。其良好的可擴展性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合我們的應用場景，介結我們在使用 Spark Streaming 方面的技術架構，並著重講解 Spark Streami...

Spark HDFS Apache 數據庫 Hadoop 技術分佈式計算 MongoDB 機器學習 ElasticSearch Twitter MySQL Storm 2019-08-14

'你是怎樣進行大數據之Spark性能分析和調優的？'

"Spark 的性能分析和調優很有意思，今天再寫一篇。主要話題是 shuffle，當然也牽涉一些其他代碼上的小把戲。以前寫過一篇文章，比較了幾種不同場景的性能優化，包括 portal 的性能優化，web service 的性能優化，還有 Spark job 的性能優化。Sp...

Spark 大數據算法跳槽那些事兒中央處理器 2019-08-14

'這是你見過的史上最全的Spark知識學習總結嗎？'

"RDD及其特點1、RDD是Spark的核心數據模型，但是個抽象類，全稱為Resillient Distributed Dataset，即彈性分佈式數據集。2、RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分佈在集群中的不同節點上，從而讓...

Spark HDFS Hadoop Numbers Hive 大數據 2019-08-14

'Spark內存管理之三：UnifiedMemoryManager分析'

"acquireExecutionMemory方法UnifiedMemoryManager中的accquireExecutionMemory方法：當前的任務嘗試從executor中獲取numBytes這麼大的內存該方法直接向ExecutionMemoryPool索要所需內存...

Spark 2019-08-09

'十次方社交系統第3章-文檔型數據庫MongoDB'

"學習目標：理解MongoDb的特點和體系結構掌握常用的MongoDB命令能夠運用Java操作MongoDB使用SpringDataMongoDB完成吐槽微服務的開發1MongoDB簡介1.1吐槽和評論數據特點分析吐槽和評論兩項功能存在以下特點：（1）數據量大（2）寫入操作...

MongoDB 數據庫 JSON JavaScript 軟件雲計算 NoSQL Java Python Erlang Ruby PHP 2019-08-08

'Spark內存管理之二：統一內存管理及設計理念'

"堆內內存Spark 1.6之後引入的統一內存管理機制，與靜態內存管理的區別在於Storage和Execution共享同一塊內存空間，可以動態佔用對方的空閒區域其中最重要的優化在於動態佔用機制，其規則如下：設定基本的Storage內存和Execution內存區域（spark...

Spark 設計 Java 數據結構 Java虛擬機 2019-08-07

'Linux環境Spark安裝配置及使用（三）'

"7. Spark RDD的高級算子(1) mapPartitionsWithIndex把每個partition中的分區號和對應的值拿出來def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ⇒ Iterator[U], p...

Spark Linux Scala 2019-08-06

'Linux環境Spark安裝配置及使用（六）'

"12. 認識 Spark Streaming(1) Spark Streaming 簡介流式計算框架（類似於Storm）常用的實時計算引擎（流式計算）<1>. Apache Storm：真正的流式計算<2>. Spark Streaming ：嚴格...

Spark Linux Apache 數據庫 Scala 算法 Storm Python 機器學習 Java 2019-08-04

'Spark大數據處理框架入門-包括生態系統、運行流程以及部署方式'

"Spark 大數據處理框架簡介Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架。Spark，擁有Had...

Spark 大數據 Hadoop HDFS Amazon EC2 Storm 機器學習 MapReduce 設計 HBase Hive 數據挖掘軟件技術 SQL 加州大學伯克利分校 Cassandra Java 亞馬遜公司 UC瀏覽器算法 Python 2019-07-29

'TalkingData的Spark On Kubernetes實踐'

"眾所周知，Spark是一個快速、通用的大規模數據處理平臺，和Hadoop的MapReduce計算框架類似。但是相對於MapReduce，Spark憑藉其可伸縮、基於內存計算等特點，以及可以直接讀寫Hadoop上任何格式數據的優勢，使批處理更加高效，並有更低的延遲。實際上，...

Spark Linux Hadoop MapReduce 路由器硬件 Calico 大數據 2019-07-28

'尋找數據統治力：比較Spark和Flink'

"大數據文摘授權轉載自數據派THU作者：王海濤本篇文章屬於阿里巴巴Flink系列文章之一。當提及大數據時，我們無法忽視流式計算的重要性，它能夠完成強大的實時分析。而說起流式計算，我們也無法忽視最強大的數據處理引擎：Spark和Flink。Apache Spark自2014年...

Spark 大數據數據庫技術 MapReduce Hadoop Apache 機器學習 Google 編程語言文章阿里巴巴集團 2019-07-17

'DataBricks推出新一代開源大殺器Delta Lake，助力Spark一統天下'

"DataBricks最近新開源了一個項目Delta Lake。這其實不算是個新項目了。DataBricks在其商業版裡面提供這樣的功能已經有一段時日了。對我來說Delta Lake就是久聞大名，但是不知道廬山真面目。當然以DataBricks一貫的既要為人民服務，更要為人...

Spark 技術大數據數據庫 PowerPoint 軟件設計 Hive 微軟 Storm 2019-07-16

深度分析Spark最新大殺器Delta Lake

DataBricks最近新開源了一個項目Delta Lake。這其實不算是個新項目了。DataBricks在其商業版裡面提供這樣的功能已經有一段時日了。對...

Spark 數據庫大數據技術 PowerPoint 軟件 Hive 設計 Storm 微軟工業設計 2019-07-15

推薦中...