'數據分佈背後的邏輯'

數據庫數據結構大數據分佈式計算大數據小諸葛 2019-08-05

數據分佈背後的邏輯

在分佈式數據庫及大數據平臺中，數據如何分佈到多臺機器中是個很關鍵的問題。因為很多運算是數據密集型的，如果數據分佈做得不好，就會導致網絡傳輸量變大，從而影響性能。

一般來講，分佈式數據庫會提供兩種分佈策略：對於大表按某個字段（的 HASH 值）去分佈，大多數情況會使用主鍵，這樣可以把數據分拆到多臺機器上；對於小表則採用複製性分佈，也就是每個機器上都會複製一份。

但是，表的大小並沒有絕對的判定標準，很大很小的表都容易識別並採取相應的策略，而那些數據不多不少的中型數據表又該採取哪種策略呢？

要搞清這個問題，我們就要知道數據分佈背後的邏輯，什麼樣的數據分佈才算是好的？

合理的數據分佈能夠有效地減少 JOIN 運算過程中的網絡傳輸量！這也是數據分佈的關鍵目標。

大部分常規運算都容易分拆到多個機器上分別執行後再彙總，這樣，原則上數據只要儘量平均分佈就可以由各節點來分攤計算負擔。但是 JOIN 不一樣，它涉及關聯計算，如果 JOIN 的兩條記錄不在同一個節點上，那就需要把它們先傳輸到一起才能進行運算，這種事當然越少越好了。

那麼怎樣才能儘量避免 JOIN 過程中的數據傳輸呢？

這又要回到我們已經討論過多次的 JOIN 類型。回顧一下去年的文章《JOIN 運算剖析》，我們把 JOIN 分成三類：外鍵、同維、主子。同維表和主子表的 JOIN 是在主鍵（或部分）之間進行的，主鍵不同的兩條記錄是不可能發生 JOIN 的，這樣，如果數據已經按主鍵分佈的，就不會發生跨節點 JOIN 的現象了。而外鍵表的 JOIN，維表記錄可能被事實表隨意引用，無論怎樣將維表分佈，都有可能發生跨節點 JOIN 的現象，只有將維表複製到每個節點上去，才能避免 JOIN 過程中的網絡傳輸。

這樣，我們就知道了：同維表和主子表要按主鍵字段去分佈，而維表則要採用複製性策略，每節點都放一份，這樣能有效減少跨節點 JOIN 運算。

但這和大表小表有什麼關係？

一般來講，記錄事件的事實表會隨著時間推移而不斷增大，常常是大表，而這種表之間的 JOIN 大多數是同維表或主子表（比如訂單及明細）關係。而用於外鍵指向的維表主要是用於存儲一些不常變化的屬性信息，相對要小一點。於是，本來是事實表要分拆分佈、維表要複製分佈的策略，就會表現成“大表”分拆、“小表”複製的特徵了。

明白了這一點，我們就不會再糾結大表小表的界限在哪裡了，其實沒有大小之分，而是在數據結構中的地位決定的。

不過，關係數據庫中並沒有明確的事實表和維表概念，需要我們主動地去識別，有意識地設置分佈方案。而且，一定要用主鍵去分佈，隨便找一個無關字段去分佈，就起不到減少跨節點 JOIN 的作用了。

有些大數據平臺只提供自動（按大小）分佈的方案，不能強制複製維表，也不能讓同維表和主子表按主鍵同步分佈，這時候分佈式計算的效果就不會好了，在選擇這些計算體系時需要特別注意。

相關推薦

'微信開放“一物一碼”能力，背後的邏輯是什麼？'

"微信在7月17號全面開放了“一物一碼”能力，很多業內和非業內人士有很多的疑問，微信一物一碼到底是什麼？微信開放這個意欲何為？會不會顛覆第三方公司？筆者藉著人人都是產品經理這個平臺給大家做一個專題分享，希望能為大家答疑解惑，同時一物一碼行業放大聲量，貢獻點小小的力量。文章內...

微信移動互聯網騰訊市場營銷技術大數據百度阿里巴巴集團萬物嚐鮮節 SaaS 算法物聯網產品經理糧油上海文章 2019-09-15

'公信寶查封事件背後：大數據行業的生死劫難'

"文/易柏伶昨日晚間，一則消息震驚了整個幣圈。據開放財經消息，公信寶主體運營公司杭州存信數據科技有限公司被杭州市公安局西湖分局古蕩派出所查封，而後古蕩派出所方面經由部分媒體證實了消息的真實性。今天早上，據公信寶海外團隊迴應，公信寶項目實質解散消息為假，並聲明稱，公司的區塊鏈...

大數據技術網絡爬蟲區塊鏈雲計算金融運營商人生第一份工作投資人工智能杭州銀行電腦通信頭號大贏家| 理財大賽第二季證券投資基金上海設計機器學習人臉識別電子商務信用記錄關愛日機器人傳媒 2019-09-14

'360金融業績亮眼的背後：AI在全業務流程應用'

"當下，整個金融科技行業呈現了一個明顯的趨勢：大平臺的集聚效應越來越明顯，用戶和資金都在湧現頭部平臺，各項經營指標穩步增長。成立三年的360金融就是享受頭部效應的平臺之一。8月23日，360金融(NASDAQ:QFIN)發佈2019年二季度財報。財報顯示，360金融實現營收...

人工智能金融大數據機器人市場營銷技術人生第一份工作 2019-09-14

'伊利：龍頭背後的祕密'

"中國乳企龍頭伊利繼續領跑亞洲乳業，穩健前行的背後有何祕密？作者 / 盒飯君來源 / 盒飯財經（ID：daxiongfan）近日，“2019中國企業500強”榜單發佈，伊利集團強勢上榜。8月29日晚，伊利股份發佈半年報，上半年實現營業總收入450.71億元，淨利潤近40億...

伊利集團酸奶奶粉亞洲歐洲大數據配方奶粉牛奶冰淇淋潘剛利樂包裝技術時尚 2019-09-13

'大華股份李騰：創新\'華麗\'背後的殘酷與理性'

"從2001年剛進入安防與視頻監控行業中的一個微小參與者，到如今走向世界的"全球領先的以視頻為核心的智慧物聯解決方案提供商和運營服務商"，大華的成長與發展可謂迅猛。而這一切，離不開它在創新上的一次次"華麗"表現。最近，大華上榜了2018中國上市公司"創新指數500強”“創新...

大華股份技術人工智能網絡安全物聯網創業經濟 MBA 算法大數據雲計算 IBM 浙江大學人生第一份工作數學演講 2019-09-13

'盈利模式+裂變模式+組織模式，從麵館經營看背後商業模式實體運作'

"大家好，我是放羊哥。商業模式是一個企業的靈魂，作為一個企業的領導人，首先要理解商業模式的底層邏輯，才能設計出適合自己企業發展的商業模式。商業模式一直眾說紛紜，其實商業模式應該包括三個層次：第一個層面回答項目如何賺錢，也就是所謂“盈利模式”；第二層面是回答靠什麼樣的方式去裂...

投資經濟市場營銷技術人生第一份工作軟件大數據 2019-09-12

'“歌壇神捕”張學友背後的黑科技公司，要上市了？'

"現如今，依圖科技又換了一種新的方式再次活躍在熒光燈下。作者 | 筠筠來源 | IPO那點事數據支持 | 勾股大數據2018年4月到6月份，“歌神”張學友在南昌、贛州、嘉興、金華這幾個地方舉辦了4場巡迴演唱會。可出人意料的是，在這幾場演唱會上警方竟逮捕了5名逃犯，而學友大哥...

張學友技術雲鋒基金人工智能私募基金高瓴資本人臉識別證券投資基金馬雲投資阿里雲計算史蒂芬·霍金演唱會機器學習人生第一份工作雲計算大數據私募操作系統算法電腦生活大爆炸首次公開募股阿里巴巴集團金融微軟紅杉資本分佈式計算東北大學史玉柱 4月吃什麼謝爾頓·庫珀信息檢索高榕微軟亞洲研究院 2019-09-12

'長城汽車兩年後要量產的自動駕駛汽車是什麼樣？來看看其背後的自動駕駛技術'

"經濟觀察網記者李紫宸實習記者石浩天經濟觀察網記者近日獲悉，長城汽車計劃於2021年實現L3自動駕駛下一代VV7車型的車規量，其自動駕駛技術合作商亮道智能將負責對該車型選用的新一代4D純固態激光雷達ibeoNEXT及環境感知系統在長城量產項目中的測試驗證工作。這是全...

無人駕駛長城汽車技術雷達算法經濟原汁原味的德系SUV 硬件大數據人生第一份工作 Flash 2019-09-10

'上海火爆外資超市背後本土平臺的模式、信心和耐心'

"Costco最近在中國火了，在這個消費品過剩的時代，它讓上海的精明“大媽”們瘋狂搶購了一把。這家源自美國的會員制倉儲大賣場以其“優質低價”著稱，然而，在全球消費和製造業大國的中國，就沒有一家能夠比拼Costco的本土商家嗎？梳理國內主打“高性價比”的線下線上平臺發現，除了...

最in買手君原汁原味的德系SUV 上海良心國貨大賞市場營銷家用電器萬物嚐鮮節順豐速運傢俱設計大數據 Ultrasone 金融時報紀錄片運營商茅臺服裝 2019-09-10

'江南春：打造爆款產品，你需要掌握3個底層邏輯'

"江南春是分眾傳媒的創始人，他作為中國的傳媒教父，通過差異化定位、飽和式營銷等方式，幫助眾多企業成功搶佔了用戶心智，實現了產品與品牌的市場佔領。目前分眾傳媒已覆蓋150個城市，觸達5億人次主流人群，為5400個國內外一線及新興品牌服務，年營收超百億，市值過千億。他把自己多年...

市場營銷分眾傳媒技術傳媒京東商城經濟萬物嚐鮮節上海音樂大數據 OPPO 沃爾沃地理徐家彙從0到1 小米科技三星集團蘋果公司聯想手機阿里巴巴集團人工智能人生第一份工作 2019-09-10

'一鍵換臉？農機人看“ZAO”引爆輿論背後的信息安全問題'

"很多人在年少時都有個明星夢，甚至在看著經典影視劇，會將自己想象成裡面的主角，筆者就是其中之一。在剛剛過去的這個週末，一款換臉應用“ZAO”引爆無數用戶狂歡，出演經典電影，和偶像飆戲似乎成為了可能。這款應用軟件傻瓜操作，用戶只需要上傳自己的照片就能夠AI一鍵換臉，將影視劇中...

信息安全雲計算大數據第二十二屆中國農加工投洽會技術網絡安全物聯網人臉識別 2019世界人工智能大會金融軟件邯鄲農村電視劇河北殺毒軟件湖南設計 2019-09-09

'錨定實體資產，ULM背後究竟有多少實體資產支撐？'

"隨著區塊鏈技術的飛速發展，區塊鏈產業迎來了飛速發展的黃金期，如今區塊鏈技術脫離了“單打獨鬥”的局面，而是通過“區塊鏈+”的理念，利用其不可篡改、可溯源、分佈式的特性，與物聯網、大數據、人工智能等高新技術結合，建立起高新技術矩陣，應用範圍逐步擴展到了工業生產、城市建設、公共...

區塊鏈技術投資物聯網大數據經濟移動互聯網打印機移動電源人工智能 2019-09-07

'拼多多Q2財報超預期背後，一二線城市用戶已成購買主力'

"8月21日，拼多多公佈2019年第二季度財報。遠超市場預期的業績數據令股價大漲，總市值接近350億美元。一、拼多多2019年Q2財報發佈，營收遠超市場預期1、營收增長財報數據顯示，第二季度拼多多營收達72.9億元，比去年同期大幅增長169%；同時淨虧損額比去年同期降低近的...

京東商城農村電商技術萬物嚐鮮節銀行農產品高盛投資農村大數據 2019-09-07

'DeFi熱潮背後，生態逐漸完善的原力協議能否成為“破局者”？'

"今年剛提出來且火了一把的 DeFi 概念在最近開始有點涼的趨勢，整個 DeFi 鎖倉金額，由今年 6 月 25 日最高峰 17 億美元下跌至目前的 10 億美元左右，跌去 40%以上。曾經熱極一時的 DeFi 明星項目 Dharma 更是關閉了全部產品的運行，由 Para...

金融區塊鏈大數據投資技術軟件人工智能 2019-09-05

'《小歡喜》迎來大結局，百度視頻大數據揭祕熱播背後'

"近日，東方衛視熱播的大劇《小歡喜》迎來大結局。在《親愛的，熱愛的》、《長安十二時辰》、《陳情令》等爆款劇各領風騷的暑期檔，高考題材的《小歡喜》能殺出重圍實屬不易。《小歡喜》是同為海清、黃磊主演的《小別離》的姊妹篇，開播之初便備受關注。《小歡喜》選擇從高考這一“全民戰役”題...

百度視頻百度電視劇小歡喜陶虹海清黃磊人生第一份工作不完美媽媽高考大數據小別離王硯輝新聞詠梅大學長安十二時辰小課堂技術烈日灼心徐崢藝術我不是藥神鄧等等經濟週末綜藝指南發現佩奇藝考讀書電視劇陳情令柏林電影節 2019-09-04

'市值超越百度，拼多多狂歡背後的祕訣是什麼？'

"作者 | 漢之雲數據支持 | 勾股大數據“拼多多，拼多多，拼的多，省的多”，拼多多的這句廣告詞，就像有魔術一樣，深入人心。去年還是3億人在拼，今年已經接近5億人都在拼了。截至週四收盤，拼多多市值為390.67億美元，首次超越百度，排在阿里，騰訊，美團，京東之後，成為中國第...

百度京東商城電子商務高鑫零售阿里巴巴集團騰訊上海創業永輝超市美團網大數據人生第一份工作 2019-09-04

'你ZAO嗎？一夜爆紅的AI換臉軟件，背後暗藏哪些問題？'

"這幾天，賽姑娘的朋友圈被換臉APP“ZAO”合成的視頻刷了屏，上傳這些視頻的都是萌妹子，視頻中的她們造型多變，軟萌可愛。還有的變身紫薇、小燕子，演著劇裡的經典橋段。當然這並不是她們本人，而是通過AI換臉技術，將她們的臉“安”在了明星臉上。肖像權驗證令人忐忑對於妹子們來說，...

人工智能軟件人臉識別技術知識產權支付寶數據庫 2019-09-04

'東風日產車聯網破百萬輛大關，刷新行業速度，背後有何智勝良方？'

"汽車智能網聯化的浪潮席捲而來，尤其是首批5G商用牌照的發放，更標誌著中國汽車業跨步邁入鉅變前的黎明。從3G時代起步，在4G時代走向成熟，智能網聯汽車將在5G時代迎來全面爆發。這既是技術邏輯推演下的必然，也是國家頂層設計與市場需求主導下的結果。據工信部規劃，到2025年，掌...

東風日產乘用車公司技術我的第一部5G手機屏住呼吸智能汽車來了知識產權大數據設計人工智能 Wi-Fi 人臉識別 2019-09-03

'DeFi熱潮背後仍問題重重，原力協議能否成為“破局者”？'

"原創： Frank 今年剛提出來且火了一把的 DeFi 概念在最近開始有點涼的趨勢，整個 DeFi 鎖倉金額，由今年 6 月 25 日最高峰 17 億美元下跌至目前的 10 億美元左右，跌去 40%以上。曾經熱極一時的 DeFi 明星項目 Dharma 更是關閉了全部產...

金融區塊鏈大數據投資技術軟件人工智能 2019-09-03

推薦中...