MySQL海量數據分佈式存儲

MySQL 大數據地理 CPU 技術愛源碼愛源碼 2018-01-03

本文只是一個概念，具體配置太多，這裡不做細節描述。

1、分佈式應用的概念和優勢

分佈式數據庫是指利用高速網絡將物理上分散的多個數據存儲單元連接起來組成一個邏輯上統一的數據庫。分佈式數據庫的基本思想是將原來集中式數據庫中的數據分散存儲到多個通過網絡連接的數據存儲節點上，以獲得更大的存儲容量和更高的併發訪問量。近年來，隨著數據量的增長，分佈式數據庫技術也得到了快速的發展，傳統的關係型數據庫開始從集中式模型向分佈式存儲，從集中式計算走向分佈式計算。

分佈式數據庫系統的主要目的是容災、異地數據備份，並且通過就近訪問原則，用戶可以就近訪問數據庫節點，這樣就實現了異地的負載均衡。同時，通過數據庫之間的數據傳輸同步，可以分佈式保持數據的一致性，這個過程完成了數據備份，異地存儲數據在單點故障的時候不影響服務的訪問，只需要將訪問流量切換異地鏡像就行。

分佈式數據庫應用的優勢如下：

（1）適合分佈式數據管理，能夠有效提高系統性能。

（2）系統經濟性和靈活性好。

（3）系統的可靠性和可用性強。

MySQL海量數據分佈式存儲

2、mysql分佈式應用的主要技術

（1）mysql數據切割

數據切割（sharding）是指通過某種特定的條件，將存放在同一數據庫中的數據分散存放到多個數據庫（主機）上面，以達到分散單臺設備負載的效果。數據切分還可以提高系統的總體可用性，因為單臺crash之後，只有總體數據的某部分不同，而不是所有數據。

根據其切分規則的類型，可以分為兩種切分模式。一種是按照不同的表（或者schema）來切分到不同的數據庫（主機）之上，這種切分成為數據的垂直（縱向切分）；另一種則是根據表中數據的邏輯關係，將同一個表中的數據按照某種條件拆分到多臺數據庫（主機）上面，這種切分稱為數據的水平（橫向）切分。垂直切分的最大特點就是規則簡單，實施也更為方便，尤其適合各個業務之間耦合度低，相互影響小、業務邏輯非常清晰的系統。在這種系統中，可以很容易做到將不同業務模塊所使用的表拆分到不同的數據庫中。根據不同的表進行拆分，對應用程序的影響也更小，拆分規則也會比較簡單清晰。水平切分比垂直切分更復雜一點。因為要將同一個表中的不同數據拆分到不同的數據庫中，對於應用程序來說，拆分規則本身比較複雜，後期的數據維護也更加複雜一些。

（2）為什麼要切分數據？

1)像Oracle這樣成熟穩定的DB可以支撐海量數據的存儲和查詢，但是價格不是所有人都承受得起。

2)負載高點時，Master-Slaver模式中存在瓶頸。現有技術中，在負載高點時使用相關的Replication機制來實現相關的讀寫的吞吐性能。這種機制存在兩個瓶頸：一是有效性依賴於讀操作的比例，這裡Master往往會成為瓶頸所在，寫操作時需要一個順序隊列來執行，過載時Master會承受不住，Slaver的數據同步延遲也會很大，同時還會消耗CPU的計算能力，為write操作在Master上執行以後還是需要在每臺slave機器上都跑一次。而Sharding可以輕鬆的將計算，存儲，I/O並行分發到多臺機器上，這樣可以充分利用多臺機器各種處理能力，同時可以避免單點失敗，提供系統的可用性，進行很好的錯誤隔離。

3)用免費的MySQL和廉價的Server甚至是PC做集群，達到小型機+大型商業DB的效果，減少大量的資金投入，降低運營成本，何樂而不為呢？

Mysql5.1以上的版本都支持數據表分區功能。數據庫中的數據在經過垂直或水平切分被存放在不同的數據庫主機中之後，應用系統面臨的最大問題就是如何讓這些數據源得到較好的整合，有以下兩種解決思路。

1）在每個應用程序模塊中配置管理自己需要的一個（或者多個）數據源，直接訪問各個數據庫，在模塊內完成數據的整合。

2）通過中間代理層來統一管理所有的數據源，後端數據庫集群對前端應用程序透明。

第二種方案，雖然短期內需要付出的成本可能會大一些，但是對整個系統的擴展性來說，是非常有幫助的。針對第二種方案，可以思路如下：

1）利用mysql proxy實現數據切分及整合。

Mysql proxy是在客戶端請求與mysql服務器之間建立一個連接池，所有客戶端請求都發送到mysql proxy，由mysql proxy進行相應的分析，判斷是讀操作還是寫操作，然後發送到相應的mysql服務器上。對於多節點slave集群，也可以做到負載均衡的效果。

2）利用amoeba實現數據切分及整合。

Amoeba是一個基於java開發的、專注於解決分佈式數據庫數據源整合proxy程序的開源框架，amoeba已經具有query路由，query過濾、讀寫分離、負載均衡以及HA機制等相關內容。Amoeba主要解決以下幾個問題：

①數據切分後複雜數據源整合

②提供數據切分規則並降低數據切分規則給數據庫帶來的影響

③降低數據庫與客戶端的連接數

④讀寫分離路由

3）利用HiveDB實現數據切分及整合。

3、mysql讀寫分離

讀寫分離是利用數據庫的複製技術，將讀和寫分佈在不同的處理節點上，從而達到提高可用性和擴展性的目的。主數據庫提供寫操作，從數據庫提供讀操作，在很多系統中，更多地是讀操作。當主數據庫進行寫操作時，數據要同步到從數據庫，這樣才能有效保證數據庫完整性。Mysql也有自己的同步數據技術。Mysql通過二進制日誌來複制數據，主數據庫同步到從數據庫後，從數據庫一般由多臺數據庫組成，這樣才能達到減輕壓力的目的。讀操作應根據服務器的壓力分配到不同的服務器，而不是簡單的隨機分配。Mysql提供了mysql proxy實現讀寫分離操作。

目前較為常見的mysql讀寫分離分為以下兩種。

①基於程序代碼內部實現

在代碼中根據select、insert進行路由分類，這類方法也是目前生產環境中應用最廣泛的。

②基於中間代理層實現

代理位於客戶端和服務器之間，代理服務器收到客戶端請求後通過判斷轉發到後端數據庫。下圖是ebay讀寫分離的結構圖，通過share plex近乎實時的複製數據到其他數據節點，再通過特定的模塊檢查數據庫狀態，並進行負載均衡、讀寫分離，極大地提高了系統可用性。

4、mysql集群

Mysql cluster技術在分佈式系統中為mysql數據提供了冗餘特性，增強了安全性，使得單個mysql服務器故障不會對系統產生巨大的負面效應，系統的穩定性得到保障。

Mysql cluster採用shared-nothing（無共享）架構。Mysql custer主要利用了NDB存儲引擎來實現，NDB存儲引擎是一個內存式存儲引擎，要求數據必須全部加載到內存之中。數據被自動分佈在集群中的不同存儲節點上，每個存儲節點只保存完整數據的一個分片（fragment）。同時，用戶可以設置同一份數據保存在多個不同的存儲節點上，以保證單點故障不會造成數據丟失。

Mysql cluster需要一組計算機，每臺計算機的角色可能是不一樣的。Mysql cluster按照節點類型可以分為3類：管理節點（對其他節點進行管理）、數據節點（存放cluster中的數據，可以有多個）和mysql節點（存放表結構，可以有多個）。Cluster中的某計算機可以是某一種節點，也可以是2種或3種節點的集合。這3種節點只是在邏輯上劃分，所以他們不一定和物理計算機是一一對應的關係。多個節點之間可以分佈在不同的地理位置，因此也是一個實現分佈式數據庫的方案。

Mysql集群的出現很好的實現了數據庫的負載均衡，減少了數據中心節點的壓力和大數據處理，當數據庫中心節點出現故障時，集群會採用一定的策略切換到其他備份節點上，有效的屏蔽了故障問題，單節點的失效不會影響整個數據庫對外提供服務。而且通過採用數據庫集群架構，主從數據庫之間時刻都在進行數據的同步冗餘，數據庫是多點的、分佈式的，良好的完成了數據庫數據的備份，避免了數據損失。

MySQL海量數據分佈式存儲

相關推薦