'Apache Spark：彈性分佈式數據集'

Spark Apache 數據結構技術機器學習 Hadoop 大數據數據挖掘算法設計 Google 愛碼農 2019-08-27

RDD代表瞭如何在Apache Spark中表示大型數據集的想法以及使用它的抽象。本節將介紹前者，以下部分將介紹後者。根據關於Spark的開創性論文，“RDD是不可變的，容錯的並行數據結構，它們允許用戶明確地將中間結果保存在內存中，控制它們的分區以優化數據放置，並使用豐富的操作符來操縱它們。” 讓我們剖析這個描述，真正理解RDD概念背後的思想。

不可變

RDD設計為不可變的，這意味著您無法專門修改該RDD表示的數據集中的特定行。您可以調用其中一個可用的RDD操作來按照您的方式操作RDD中的行，但該操作將返回一個新的RDD。基本RDD將保持不變，新RDD將以您更改它的方式包含數據。不可變性要求RDD攜帶Spark利用的譜系信息，以有效地提供容錯能力。

不可變

容錯

並行處理多個數據集的能力通常需要一組機器來託管和執行計算邏輯。如果這些機器中的一臺或多臺因意外情況而死亡或變得非常慢，那麼這將如何影響這些數據集的整體數據處理？好消息是Spark通過使用沿襲信息重建故障部分，自動代表其用戶處理故障。

並行數據結構

想象一下這樣一個用例：有人給你一個大小為1TB的大型日誌文件，並要求你找出有多少日誌語句中包含單詞“exception”。緩慢的解決方案是從頭到尾迭代該日誌文件，並執行確定特定日誌語句是否包含單詞exception的邏輯。更快的解決方案是將該1TB文件分成幾個塊，並以並行方式在每個塊上執行上述邏輯，以加快整個處理時間。每個塊包含一組行。行集合本質上是包含一組行的數據結構，並提供迭代每行的能力。每個塊包含一組行，並且所有塊都是並行處理的。

內存計算

Google的MapReduce論文2引入了使用一組機器以並行方式加速計算駐留在磁盤上的大型數據集的想法。這個想法已經實現，並在Hadoop開源項目中提供。在堅實的基礎上，RDD通過引入分佈式內存計算的能力來推動速度邊界。

審視導致創新理念創造的故事總是令人著迷。在大數據處理領域，一旦您能夠使用一組基本技術以可靠的方式從大型數據集中提取洞察力，您就希望使用更復雜的技術來減少執行此操作所需的時間。這是分佈式內存計算的幫助。

我所指的複雜技術是使用機器學習來執行各種預測或從大型數據集中提取模式。機器學習算法本質上是迭代的，這意味著它們需要經歷多次迭代才能達到最佳狀態。這是分佈式內存計算可以幫助將完成時間從幾天縮短到幾小時的地方。可以從分佈式內存計算中獲益的另一個用例是交互式數據挖掘，其中對同一數據子集執行多個即席查詢。如果該數據子集保留在內存中，那麼這些查詢將花費幾秒而不是幾分鐘來完成。

相關推薦

'《幽靈行動：斷點》b測大數據出爐玩家累計滅敵123億'

"育碧旗下新作《幽靈行動：斷點（Tom Clancys Ghost Recon: Breakpoint）》在9月5日至9月9日期間進行了Beta測試，今天育碧官方公開了這次Beta測試的大數據統計圖，為玩家統計了遊戲中各種道具、槍械、殺敵數等。一起來看看吧。在這次測試期間共...

幽靈行動育碧軟件大數據 PlayStation Xbox Xbox One 2019-09-19

'成都房價下跌誰先帶頭，3大數據判斷樓市現狀'

"點右上關注，獲得更多樓市信息與房價數據下面是幾篇閱讀量近100萬，收藏率、轉發率最高的文章，值得一看：房產過戶給子女的6種方法，注意其中的隱患，一不小心多付20%樓市風險多：買房交首付時9大注意事項，不能簽字交錢就完事樓市實戰：買房後悔時，七大方法幫你退回房子定金。附法律...

成都二手房大數據購房投資雙流 2019-09-19

'美國製造————通用集團'

"在美國有一句這樣的話：“美國可以沒有谷歌，沒有蘋果，但不能沒有通用。”通用是下面五家公司共用的一個名字，是不同的公司，只是我們慣用稱其為通用集團。通用下面分別有五大集團：通用汽車(General Motors)通用汽車公司前身是1904年由戴維·別克創辦的別克汽車公司(B...

通用汽車公司通用磨坊通用電氣托馬斯·愛迪生設計通用動力別克汽車歐寶休斯敦航空哈根達斯英國航空母艦托馬斯·傑斐遜密西西比河冰淇淋能源 Google 明尼蘇達州通用電氣航空新澤西州雪佛蘭投資肯塔基州原汁原味的德系SUV 人生第一份工作蘋果雷達金融凱文·杜蘭特 2019-09-19

'分佈式之 Nginx'

"本篇一句話總結：Nginx是一款輕量級的Web 服務器，也可以用做反向代理、負載均衡、動靜分離和 HTTP緩存。正文開始：什麼是Nginx？為什麼選擇Nginx?怎麼用Nginx？上面這幾個問題，是每個剛接觸 Nginx 的人都想知道的。下面小兵綜合自己的理解和使用情況，...

Nginx Tomcat Apache CentOS 瀏覽器 HTML Wget GCC OpenSSL Java JSP 2019-09-19

'德誠集團 | 秀“國潮”新風尚：德鈺東方首次亮相深圳國際珠寶展'

"（商報訊記者賀安安）9月12日，國內最具規模、最具影響力的珠寶交易展覽會——2019年深圳國際珠寶展在深圳會展中心啟幕，展會連續五天，再次吹響中國珠寶時尚和珠寶交易“集結號”，吸引海內外珠寶品牌齊聚一堂，各類新潮經典珠寶首飾爭輝奪豔。本屆深圳國際珠寶展星光熠熠，除了經...

珠寶深圳國際宗室德誠時尚中國時尚文化玉深圳黃金藝術市場營銷設計中國黃金首飾 2019-09-19

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'4.7萬億！《2019中國餐飲大數據白皮書》出爐透露了這十大機會點'

"在日前舉行的第二十屆中國美食節新聞通氣會上，中國飯店協會會長韓明介紹，今年1月份至7月份，全國餐飲業收入為24937億元，同比增長9.4%。預計全年消費規模將達4.7萬億元。那麼，對於食材企業而言，其中有哪些機會？結合中國飯店協會會長韓明的介紹以及2019中國餐飲大數據白...

快餐中式快餐大數據經濟美食博覽會投資關愛吃貨成長協會 2019-09-19

'10年投資8000億？紫光集團要自主研發DRAM'

"（觀察者網訊） 18日消息，臺灣《經濟日報》近日報道，紫光集團DRAM 事業群CEO高啟全日前返臺過中秋節時接受採訪表示，紫光集團決定自主研發DRAM，且大基金和重慶產業基金都會投資，初期研發中心將設在武漢，待研發有了成果才會在重慶設廠生產。高啟全強調，人才是最大的挑戰...

重慶技術證券投資基金投資 SK海力士韓國美光科技三星集團武漢設計石油 2019-09-18

'如何找對人、選好貨、鋪對場？尼爾森快消零售大數據揭開真相'

"中國商報/中國商網（記者張濤）9月17日，尼爾森發佈了《揭祕高能市場：尼爾森中國城市快消零售大數據報告(2019)》。該報告彙集消費者、門店、地理特徵、產品及銷量等超過3萬個數據標籤，實現米級人貨場數據的立體融通。尼爾森表示，報告旨在幫助品牌商和零售商以最快速度瞭解市場...

大數據黃金技術 2019-09-18

'選幾何A還是Aion S？別被官方數據忽悠，實測的真實續航差距真大'

"今天來詳細對比一下AionS和幾何A這兩款車。一個算得上是吉利的新能源開山之作，一個是廣汽新能源的旗艦產品，兩款車的風頭和人氣都非常旺，儼然已經成為了自主品牌純電動市場的新生代明星車型。尤其是Aion S的似乎更牛，率先使用NCM811電池，最高630km續航等等，的確非...

設計能源廣州汽車集團股份有限公司新能源技術轎車方正電機 2019-09-18

'天水市麥積區潘集寨至街亭出口（東柯大道）旅遊公路限高的通告'

"天水市麥積區潘集寨至街亭出口（東柯大道）旅遊公路限高的通告天水市麥積區潘集寨至街亭出口（東柯大道）旅遊公路全長10.8公里，起點位於馬跑泉鎮潘集寨村，終點位於G30街亭出口，全線按一級公路和城市主幹道的標準設計，設計速度60km/h，路基寬度32米，該公路主車道已於201...

天水秦安交通設計 2019-09-18

'四川省投資集團有限責任公司原黨委副書記高淳被公訴'

"來源：經濟日報-中國經濟網經濟日報－中國經濟網北京9月17日訊據最高檢網站消息，日前，四川省投資集團有限責任公司原黨委副書記、副董事長、總經理高淳（正廳級）涉嫌受賄罪、貪汙罪一案，經四川省人民檢察院指定管轄，由資陽市人民檢察院向資陽市中級人民法院提起公訴。檢察機關在審查...

四川四川成渝資陽投資交通犍為人生第一份工作刑法 4月吃什麼設計 2019-09-18

'讓人遺憾！阿根廷輸球無緣世界盃冠軍兩大數據表現太差了'

"北京時間9月15日晚上，男籃世界盃決賽打響，阿根廷隊迎戰西班牙隊，經過四節比賽的激戰，阿根廷隊遺憾75-95輸給西班牙隊無緣冠軍，本場比賽阿根廷輸球可以說是輸在了自己的天生短板跟臨場發揮了，球隊兩大方面的表現表現有點糟糕！說阿根廷輸給了天生的短板，是因為球隊陣容的短板，那...

世界盃足球賽阿根廷西班牙大數據路易斯·斯科拉籃球的夏天越投入越精彩 2019-09-18

'為什麼說造電動汽車的特斯拉是一家數據公司'

"來源：汽車之心作者：葉方提到特斯拉，大家總會不自覺站成兩個陣營：一方將這家電動車公司捧上天；另一方則唱衰，認為它最終會被對手們幹掉。換句話說，特斯拉要麼一勞永逸改變汽車行業，要麼就會在不久的將來關張。不過，如果我們放下財務、競爭和Elon Musk這個神奇的存在，從理性...

特斯拉汽車電動汽車人工智能伊隆·馬斯克技術無人駕駛大數據算法電腦軟件數據庫機器學習人機交互硬件眾包石油雷達 2019-09-18

'優信李成彬：大數據助力二手車行業成長變革'

"優信集團業務產品中心總經理李成彬日前在“創享未來，駕馭明天”——未來出行·創新與變革跨界交流活動上，發表了主題為《大數據驅動行業變革》的演講，與在場嘉賓分享大數據的影響下優信在二手車行業的成長曆程。新興價值網幫助企業實現創新性增長李成彬表示，近幾年行業變化巨大，以電商行業...

大數據二手車技術萬物嚐鮮節人生第一份工作京東商城 2019-09-18

'海盜遊戲《ATLAS》結合大數據制定新計劃，玩家50%時間在海上活動'

"作為全Steam最大的一款航海遊戲，海盜冒險生存遊戲《ATLAS》給我們帶來的第一直觀體驗就是規模宏偉，它有著4.5萬平方公里的地圖以及900多個小島嶼，而玩家則會在這款遊戲裡面和4萬個玩家一起作戰，感受由《ATLAS》帶來的真實海戰。然而最近《ATLAS》卻在分析玩家行...

大數據航海 Steam 生存遊戲 2019-09-18

'手遊大數據：川渝玩家偏愛棋牌？王者榮耀等MOBA遊戲用戶粘性最高'

"今天（9.17）國內移動互聯網大數據公司QuestMobile，發佈了2019手機遊戲行業半年報告。該報告從行業基本發展狀況、手遊玩家差異化特點、手遊流量以及遊戲推廣方式等多個方面用數據敘述了上半年國內手機遊戲行業內的一些情況。手遊行業收入增速擴大，活躍用戶規模呈現持續向...

網絡遊戲 Qwangzherongyao 大數據市場營銷廣東移動互聯網消除類遊戲四川人生第一份工作 2019-09-18

'出門要帶5根數據線？比AirPods還方便的捲尺線，能給各種接口充電'

"隨著電子設備越來越多，越來越多越來越亂的充電線成了。我們每天面臨的煩惱，每次看到無處安放的充電線，真的很影響心情有木有。但是手機的電又是不能沒有的，別說沒電，就算手機電量下降到20%，內心就由然而生一種危機感有木有，因此對充電線是又愛又恨。因此想盡各種辦法來收納它們，試了...

蘋果公司移動電源設計 Lightning 技術 Kindle 2019-09-18

'姚晨的換季兩件套合集，看著保暖又時尚，讓你今秋衣物穿搭不發愁'

"姚晨因為前一階段的熱播劇《都挺好》又火了一把，引起廣泛網友的關注，同樣在劇中扮演女強人這一角色她的服飾穿搭也非常的耐人尋味強烈的御姐範氣息彌散到整部劇中，引得蘇大強都對她很是懼怕。我們對於姚晨也已經很熟悉了，她已經走到了女人中最有魅力的年紀下面我們就來看看姚晨的私服穿搭，...

姚晨時尚服裝鞋風衣時裝性感萬能白T恤西裝設計項鍊體育頭條女神 2019-09-18

'一文徹底弄懂分佈式事務裡的最終一致性'

"點關注，不迷路；持續更新Java相關技術及資訊！！！公眾號：Java耕耘者這篇文章將介紹什麼是分佈式事務，分佈式事務解決什麼問題，對分佈式事務實現的難點，解決思路，不同場景下方案的選擇，通過圖解的方式進行梳理、總結和比較。相信耐心看完這篇文章，談到分佈式事務，不再只是有...

數據庫 Java 技術 Microsoft SQL Server MySQL 設計 2019-09-18

推薦中...