大白話講解大數據之Elasticsearch的分佈式架構以及其部分原理

編程語言 ElasticSearch 大數據 Java 編程界的小學生編程界的小學生 2017-09-24

一、先來簡述下Windows上的Elasticsearch安裝

1、先安裝JDK，最好1.8版本（因為這裡是ES5.X的安裝，不在闡述2.X），java -version

2、去官網下載和解壓縮Elasticsearch安裝包到任意目錄（目錄最好不要帶中文）

3、直接啟動Elasticsearch目錄下的：bin\elasticsearch.bat即可，因為es本身特點之一就是開箱即用，如果是中小型應用，數據量少，操作不是很複雜，直接啟動就可以用了，若有經驗的話可以進行更改配置參數調優。

4、檢查ES是否啟動成功：Url地址欄輸入：http://localhost:9200/?pretty

若出現如下則代表啟動成功

{

"name" : "4onsTYV",

"cluster_name" : "elasticsearch",

"cluster_uuid" : "nKZ9VK_vQdSQ1J0Dx9gx1Q",

"version" : {

"number" : "5.2.0",

"build_hash" : "24e05b9",

"build_date" : "2017-01-24T19:52:35.800Z",

"build_snapshot" : false,

"lucene_version" : "6.4.0"

"tagline" : "You Know, for Search"

}

解釋說明

name: node名稱

cluster_name: 集群名稱（默認的集群名稱就是elasticsearch）

version.number: 5.2.0，es版本號（你可以下載更高版本，沒問題的）

ES還有一些插件，比如kibana，sql插件，head等等，這些以後文章陸續發。

二、Elasticsearch的分佈式架構講解

1、ES對複雜分佈式機制完全隱藏起來了，使其完全透明化。如下四點：

（1）ES是一套分佈式的系統，其隱藏了複雜的分佈式內部機制和原理，這正滿足了ES的開箱即用的特點。

（2）ES的分片機制，我們之前隨隨便便就將一些document插入到es集群中了，我們並不知道數據到哪個shard中了，這是ES內部幫我們做好的，完全不用我們去關係，他隱藏了複雜的實現，我們直接用就好了，開箱即用特點再次印證。

（3）集群發現機制 cluster discovery,首先我們打開一個ES節點，這時候會發現他加入了一個叫Elasticsearch的集群中，這時候我們打開第二個es服務，他也會自動幫我們加入到Elasticsearch集群中，並作為第一個節點的replica shard存在

（4）shard負載均衡。負載均衡什麼意思？

舉例：假設現在有3個節點，總共有25個shard要分配到3個節點上去，ES會自動進行均勻分配，以保證每個節點的均衡的讀寫負載請求，緩解了服務器的壓力。

我對其上四點總結了一張圖，如下

大白話講解大數據之Elasticsearch的分佈式架構以及其部分原理

四個特點圖示

2、ES的擴容（分為兩種，垂直擴容和水平擴容）

（1）垂直擴容：買更強大的服務器，成本非常高昂不說，而且會有瓶頸（再大的內存和硬盤也會有爆滿時刻），假設世界上最強大的服務器容量就是10T，但是當你的總數據量達到5000T的時候，你要採購多少臺最強大的服務器？即使買得到，那麼錢呢？花不起啊。。。

（2）水平擴容：非常優雅的方式，買越來越多的普通服務器，性能比較一般，但是很多普通服務器組織在一起，就能構成強大的計算和存儲能力。重點是不會到瓶頸，因為普通服務器買得起啊，沒空間了就買啊，便宜實惠。

例如：

假設：6臺服務器，每臺容納1T數據，馬上數據量要增長到8T，這時候兩個方案：

（1）垂直擴容：再買兩臺容量是2T的服務器，替換到老的兩臺服務器，那麼現在是6臺服務器的總容量就是4 * 1T + 2 * 2T = 8T

（2）水平擴容：再買兩臺容量是1T的服務器，直接加入到集群中去（而不是替換老的），那麼現在是8（無線增加，不會達到一直是6臺的瓶頸）臺服務器，總容量就是8 * 1T = 8T。（推薦）

3、ES增加或減少節點時的數據rebalance，使其負載均衡

什麼是數據的rebalance？

看圖就明白了

大白話講解大數據之Elasticsearch的分佈式架構以及其部分原理

問題

大白話講解大數據之Elasticsearch的分佈式架構以及其部分原理

rebalance

4、master節點

（1）作用：

1、管理ES集群中的元數據：比如說索引的創建和索引的刪除

2、維護索引元數據

3、節點的增加和移除

4、維護集群的元數據。

（2）默認情況下，會自動選擇（怎麼選的？他自己內部的算法）出一臺節點作為master節點。

注意：master節點不承載所有的請求，所以不會是一個單點瓶頸。（意思是說並不是因為他是master節點，所以所有請求都由他來轉發，而是每個節點都有可能被請求到。負載均衡，緩解服務器壓力）

5、節點對等的分佈式架構

（1）節點對等，每個節點都能接收所有請求（並不是說master節承受全部請求）

（2）自動請求路由（選擇哪個路由？以後文章詳解）

（3）相應收集

如下圖

大白話講解大數據之Elasticsearch的分佈式架構以及其部分原理

路由簡單圖示

若有興趣，歡迎來加入群，【Java初學者學習交流群】：458430385，此群有Java開發人員、UI設計人員和前端工程師。有問必答，共同探討學習，一起進步！
歡迎關注我的微信公眾號【Java碼農社區】，會定時推送各種乾貨（純乾貨的東西，並非Java基礎語法這些。）

大白話講解大數據之Elasticsearch的分佈式架構以及其部分原理

java碼農社區

相關推薦

'淺析大數據技術及其行業產品'

"大數據，IT行業的又一次技術變革，大數據的浪潮洶湧而至，對國家治理、企業決策和個人生活都在產生深遠的影響，並將成為雲計算、物聯網之後信息技術產業領域又一重大創新變革。未來的十年將是一個“大數據”引領的智慧科技的時代、隨著社交網絡的逐漸成熟，移動帶寬迅速提升、雲計算、物聯網...

大數據技術數據庫數據挖掘 NoSQL 算法硬件設計雲計算物聯網 MapReduce 可視化技術投資 SQL GFS 人工智能風行網思科系統經濟歷史社交網絡 Google 2019-09-18

'分佈式機器學習之——Spark MLlib並行訓練原理'

"這裡是王喆的機器學習筆記的第二十五篇文章。接下來的幾篇文章希望與大家一同討論一下機器學習模型的分佈式訓練的問題。這個問題在推薦、廣告、搜索領域尤為突出，因為在互聯網場景下，動輒TB甚至PB級的數據量，幾乎不可能利用單點完成機器學習模型的訓練，分佈式機器學習訓練成為唯一...

Spark 機器學習分佈式計算並行計算大數據 GPU 算法 Docker 中央處理器工程師文章物理 2019-09-16

'基於大數據的個性化推薦系統，實現原理及打造方案深度解析'

"隨著互聯網時代的發展和大數據時代的到來，人們逐漸從信息匱乏的時代走入了信息過載的時代。為了讓用戶從海量信息中高效地獲取自己所需的信息，推薦系統應運而生。推薦系統的主要任務就是聯繫用戶和信息，它一方面幫助用戶發現對自己有價值的信息，另一方面讓信息能夠展現在對它感興趣的用戶面...

推薦技術大數據技術百度搜索引擎噹噹網音樂人生第一份工作 2019-09-15

'Elasticsearch原理：實時架構'

"ElasticSearch 是一個分佈式、高擴展、高實時的搜索與數據分析引擎。它能很方便的使大量數據具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸縮性，能使數據在生產環境變得更有價值。ElasticSearch 的實現原理主要分為以下幾個步驟，首先...

ElasticSearch 數據庫 2019-09-14

'最佳實踐：讓 Serverless 架構拯救大數據'

"如果你聽說過 Serverless 的話，你可能會把它當做一種雲架構模式，可以將一個應用程序所需要的、長期維護的基礎設施數量降到比較低的水平。在某些場景下，這種方式可以節省很多成本。而且也確是是這樣的。但是在這篇文章裡面，我會在一個新的場景下，介紹相關的應用程序：高度並行...

大數據數據庫 Flask 操作系統 Python 硬件 Google Spark Azure 電腦微軟機器學習物理 2019-09-13

'乾貨｜詳解大數據之Hadoop—Hbase，讓小白都能讀懂的大數據教程'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師：什麼是Hbase?小白：Hbase全稱為Had...

HBase Hadoop 大數據數據庫技術 HDFS 設計數據結構物理通信 MapReduce 分佈式計算工程師 SQL 穿越火線 2019-09-12

'智能大數據開放橋頭堡長江之要津跑出新速度'

"東北網9月6日訊(記者馬悅) 重慶江津，因“地處長江之要津”而得名。近年來，重慶市江津區搶抓“一帶一路”倡議和長江經濟帶發展機遇，立足重慶二環線上重要城市組團、重慶科學城南部創新中心、成渝城市群戰略支點等定位，加快推動產業轉型升級發展，推進“一軸兩翼”同城融城一體化發展...

大數據重慶廣西經濟家住長江邊技術東南亞國家聯盟雙福想象偉大的一平方公里交通設計原汁原味的德系SUV 能源人工智能投資德邦物流創業工業設計防城港 2019-09-09

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

'大數據究竟是什麼？如何利用數據之眼賦能企業管理和決策？'

"如何做出最好、最正確的選擇，這是一道難題，即便是偉大的智人也會犯難。2500年前，著名的哲學家蘇格拉底帶領著他最優秀的幾個弟子，來到了一片麥田前。此時，正是麥子成熟的季節，金燦燦沉甸甸的麥穗，在麥田裡隨風搖曳。蘇格拉底對他優秀的弟子們說：“請你們走進麥田，一直往前不要回頭...

大數據蘇格拉底數學市場營銷啤酒小麥 2019-08-26

'如何看待藝人價值相關“大數據”？|藝人“帶貨力”之數據篇'

"作者|崔百珎編者按“真紅”還是“虛火”？不少人都看不懂如今娛樂圈中，藝人們的真實影響力。近兩年，影視娛樂行業的蓬勃發展，催生了一批又一批的年輕人，他們或以偶像的身份被大眾看見、或在影視作品中嶄露頭角，更或是在綜藝節目中有出彩表現......一時間，新人們的粉絲數量以驚人...

大數據傳媒百度百度貼吧週末綜藝指南 2019-08-26

'如何解讀藝人價值相關“大數據”？|藝人“帶貨力”之數據篇'

大數據傳媒百度百度貼吧週末綜藝指南 2019-08-25

'螞蟻花唄4面技術題：分佈式+大數據+MySQL+linux+紅黑樹+併發容器'

"螞蟻花唄一面（一個小時）：Java容器有哪些？哪些是同步容器,哪些是併發容器？ArrayList和LinkedList的插入和訪問的時間複雜度？java反射原理，註解原理？說說一致性 Hash 原理新生代分為幾個區？使用什麼算法進行垃圾回收？為什麼使用這個算法？Hash...

MySQL Linux 數據庫技術 Redis Java 大數據人生第一份工作 MongoDB Memcached 算法設計數據結構螞蟻 Solr 數據庫索引 NoSQL 2019-08-22

'連你也能看懂的大數據之Hadoop——Hbase，得之幸之'

"通過之前的介紹，我們瞭解了Hadoop框架下兩個核心技術，我們發現這兩個核心技術有一個共同的不足：操作數據延時性較高，不適合實時操作的場景。那麼今天我們來看看Hadoop框架下可以實現實時讀寫訪問的組件——Hbase。工程師什麼是Hbase?曉智Hbase全稱為Hadoo...

HBase Hadoop 大數據數據庫 HDFS 技術設計數據結構物理 MapReduce 分佈式計算通信 SQL 穿越火線工程師 2019-08-20

'架構成長之路：還不清楚原理就晚了，Java技術大咖帶你手寫Tomcat'

"推薦閱讀手把手教你手寫SpringMVC，劍指優秀開源框架靈魂純手寫實現高可用的RPC框架，Java架構師必備技能前言Tomcat，這隻3腳貓，大學的時候就認識了，直到現在工作中，也常會和它打交道。這是一隻神奇的貓，今天讓我來抽象你，實現你！之前看了一位某課堂的大咖講解的...

Tomcat Java 技術 2019-08-16

'架構成長之路：分佈式系統如何設計，看看Elasticsearch是怎麼做的'

"分佈式系統類型多，涉及面非常廣，不同類型的系統有不同的特點，批量計算和實時計算就差別非常大。這篇文章中，重點會討論下分佈式數據系統的設計，比如分佈式存儲系統，分佈式搜索系統，分佈式分析系統等。我們先來簡單看下Elasticsearch的架構。Elasticsearch 集...

ElasticSearch 設計數據庫 Solr JSON 可視化技術 MongoDB 2019-08-14

'你是怎樣進行大數據之Spark性能分析和調優的？'

"Spark 的性能分析和調優很有意思，今天再寫一篇。主要話題是 shuffle，當然也牽涉一些其他代碼上的小把戲。以前寫過一篇文章，比較了幾種不同場景的性能優化，包括 portal 的性能優化，web service 的性能優化，還有 Spark job 的性能優化。Sp...

Spark 大數據算法跳槽那些事兒中央處理器 2019-08-14

'小紅書如何實現高效推薦？解密背後的大數據計算平臺架構'

"大數據文摘投稿作品作者：郭一整理：董黎明本文整理自2019阿里雲峰會·上海開發者大會開源大數據專場中小紅書實時推薦團隊負責人郭一先生現場分享。小紅書作為生活分享類社區，目前有8500萬用戶，年同比增長為300%，大約每天有30億條筆記在發現首頁進行展示。推薦是小紅書非常核...

大數據推薦技術算法設計工程師阿里雲計算機器學習 Hive 上海收藏 2019-08-06

'總算是有人把Java，架構，大數據，人工智能講明白了'

"JavaJava是一門面向對象編程語言，不僅吸收了C++語言的各種優點，還摒棄了C++裡難以理解的多繼承、指針等概念，因此Java語言具有功能強大和簡單易用兩個特徵。Java語言作為靜態面向對象編程語言的代表，極好地實現了面向對象理論，允許程序員以優雅的思維方式進行復雜的...

Java 大數據人工智能技術數據庫設計模式可視化技術設計程序員 Spark Microsoft SQL Server 大學 Hadoop 軟件軟件工程編程語言人生第一份工作通信 SQL MapReduce 2019-07-29

'什麼是大數據？65頁PPT+50分鐘視頻講解小白也能看懂(附學習教程)'

"導讀：什麼是大數據？有什麼價值？在未來將面臨哪些機遇和挑戰？本文用PPT+視頻講解的方式，為你解答這些提問。關注程序員Doctor，在後臺私信回覆(學習)，可獲取完整版PPT下載鏈接。文末我就不信你見過這麼全套又系統的大數據教程，還免費+源碼項目！文末領取方式有小夥伴私信...

大數據 PowerPoint 數據挖掘 Spark 分佈式計算 Hadoop 機器學習人生第一份工作程序員 Linux 2019-07-25

'為什麼這麼多人說學大數據之前先學Java？'

"Java和大數據是眼下最火爆的編程語言了，在這個iOS，Android相繼沒落；PHP相繼飽和的時候，只有Java大數據能夠保持著旺盛的需求。大數據時代，不僅給想從事IT的人帶來了新的發展機會，也提供了新的職業發展通道。特別是近期世界人工智能大會的舉行，更是讓人工智能、大...

Java 大數據 Hadoop 編程語言技術人工智能 Spark 人生第一份工作 PHP Python 雲計算程序員 Android 設計工程師 iOS Apache 2019-07-20

推薦中...