'Elasticsearch原理：實時架構'

ElasticSearch 數據庫快樂生活你我 2019-09-14

ElasticSearch 是一個分佈式、高擴展、高實時的搜索與數據分析引擎。它能很方便的使大量數據具有搜索、分析和探索的能力。充分利用ElasticSearch的水平伸縮性，能使數據在生產環境變得更有價值。ElasticSearch 的實現原理主要分為以下幾個步驟，首先用戶將數據提交到Elastic Search 數據庫中，再通過分詞控制器去將對應的語句分詞，將其權重和分詞結果一併存入數據，當用戶搜索數據時候，再根據權重將結果排名，打分，再將返回結果呈現給用戶。

Elasticsearch的核心優勢就是近乎實時，為什麼說是近乎實時而非真實意義上的實時呢，因為Elasticsearch能夠做到準實時，而並不是完全的實時。下面介紹Elasticsearch是如何索引數據的整個流程。

首先，當我們對記錄進行修改時，es會把數據同時寫到內存緩存區和translog中。而這個時候數據是不能被搜索到的，只有數據形成了segmentFile，才會被搜索到。默認情況下,es每隔一秒鐘執行一次refresh，可以通過參數index.refresh_interval來修改這個刷新間隔，執行refresh主要做三件事：

1、所有在內存緩衝區中的文檔被寫入到一個新的segment中,但是沒有調用fsync,因此內存中的數據可能丟失

2、segment被打開使得裡面的文檔能夠被搜索到

3、清空內存緩衝區

從上面可以看出，內存緩存中的數據，每一秒會生成一個新的segment，一分鐘就會生成60哥segments。只有在生成segment之後，才會被索引到，所以這裡說並非realtime，而是near-realtime。

translog的相當於事務日誌，記錄著所有對Elasticsearch的操作記錄，也是對Elasticsearch的一種備份。因為並不是寫到segment就表示數據落到磁盤了，實際上segment是存儲在系統緩存（page cache）中的，只有達到一個週期或者數據量達到一定值，才會flush到磁盤上。這個時候如果系統內存中的segment丟失，是可以通過translog來恢復的。這個flush過程主要做了三件事：

1、往磁盤裡寫入commit point信息。

2、文件系統中的segment，fsync到磁盤。

3、清空translog文件。

translog可以保證緩存中的segment的恢復，但translog也不是實時也磁盤的，也就是說，內存中的translog丟了的話，也會有丟失數據的可能。所以translog也要進行flush。translog的flush主要有三個條件：

1、可以設置是否在某些操作之後進行強制flush，比如索引的刪除或批量請求之後。

2、translog大小超過512mb或者超過三十分鐘會強制對segment進行flush，隨後會強制對translog進行flush，這種情況緩存中的translog在flush之後會被清空。

3、默認5s，會強制對translog進行flush。最小值可配置100ms。

6.3版本顯示保留translog文件的最長持續時間。默認為12h。

參考官網：https://www.elastic.co/guide/en/elasticsearch/reference/6.3/index-modules-translog.html#_translog_settings

總結

translog是保證es數據安全的關鍵所在，增加flush的頻率可以減少數據丟失的風險，但是所帶來的是非常大的性能開銷，所以生產上要根據具體的業務需求來進行配置的優化。對實時要求不高的長久，可以考慮增加refresh的時間間隔，這會很有效的提升性能。

後續文檔將發佈如何部署單實例和分佈式ES集群，請關注，謝謝。

相關推薦

'多研究些架構，少談些框架——一名阿里架構師的筆記'

"引言：微服務現在辣麼火，業界流行的對比的卻都是所謂的Monolithic單體應用，而大量的系統在十幾年前都是已經是分佈式系統了，那麼微服務作為新的理念和原來的分佈式系統，或者說SOA（面向服務架構）是什麼區別呢？論微服務架構的核心概念微服務架構和SOA區別我們先看相同點1...

軟件虛擬機技術設計數據庫 DevOps 高能小子終極裝備 Docker 泛函編程設計模式電子商務軟件工程軟件設計物理電信 2019-09-15

'面試官：講講DNS的原理？'

"來源：知乎作者：孤獨煙引言今天我們來聊聊DNS。所謂域名系統（Domain Name System縮寫DNS，Domain Name被譯為域名）是因特網的一項核心服務，它作為可以將域名和IP地址相互映射的一個分佈式數據庫,可以balabala..省略一萬字不表，因為這都...

DNS Chrome 跳槽那些事兒瀏覽器 Linux HTML 百度數據庫操作系統 GNU 電腦 2019-09-14

'最佳實踐：讓 Serverless 架構拯救大數據'

"如果你聽說過 Serverless 的話，你可能會把它當做一種雲架構模式，可以將一個應用程序所需要的、長期維護的基礎設施數量降到比較低的水平。在某些場景下，這種方式可以節省很多成本。而且也確是是這樣的。但是在這篇文章裡面，我會在一個新的場景下，介紹相關的應用程序：高度並行...

大數據數據庫 Flask 操作系統 Python 硬件 Google Spark Azure 電腦微軟機器學習物理 2019-09-13

'數據中臺盛行，DataOps興起，數據架構才是未來'

"導讀：在數字化轉型的浪潮下，數據架構獲得了越來越多的關注。作為企業架構中的關鍵紐帶，數據架構解決了業務與數據間的映射，規範了應用架構中的數據集成關係，指導了技術架構的技術選型，在企業中發揮著不可或缺的作用。伴隨DataOps等場景的出現，數據架構會越來越走向數據消費端，為...

技術數據庫物理社會保險投資設計跳槽那些事兒 2019-09-12

'你真的掌握LVS、Nginx及HAProxy工作原理嗎？'

"當前大多數的互聯網系統都使用了服務器集群技術，集群是將相同服務部署在多臺服務器上構成一個集群整體對外提供服務。圖片來自 Unsplash這些集群可以是 Web 應用服務器集群，也可以是數據庫服務器集群，還可以是分佈式緩存服務器集群等等。在實際應用中，在 Web 服務器集群...

Nginx Linux 軟件 Mac電腦 DNS MySQL 技術雲計算數據庫人生第一份工作 2019-09-10

'安排《螞蟻花唄1234面：Redis+分佈式架構+MySQL+linux+紅黑樹》'

"前言：大廠面試機會難得，為了提高面試通關率，建議朋友們在面試前先覆盤自己的知識棧，依據掌握程度劃分重要、優先級，系統地去學習！如果不準備充分就去參加面試，既會失去進入大廠的機會，更是對自己的不負責。螞蟻花唄一面（一個小時）：1、Java容器有哪些？哪些是同步容器,哪些是...

Redis MySQL Linux 技術 MongoDB Java 數據庫人生第一份工作設計 Memcached 算法 Solr Docker 數據庫索引 Java虛擬機 2019-09-09

'基於MySQL Binlog的Elasticsearch數據同步實踐'

"作者介紹張坤，馬蜂窩電商研發團隊度假業務高級研發工程師。一、為什麼要做隨著馬蜂窩的逐漸發展，我們的業務數據越來越多，單純使用 MySQL 已經不能滿足我們的數據查詢需求，例如對於商品、訂單等數據的多維度檢索。使用 Elasticsearch 存儲業務數據可以很好的解決我們...

MySQL ElasticSearch JSON 設計腳本語言技術工程師電子商務 2019-09-09

'易語言實用例程1：簡單的數據庫網絡操作（C/S架構）---上篇'

"學了十多年的易語言，現在已全面轉向.net（原因就不說了），但與易語言十多年感情是丟不掉的。作為引導我步入編程大門的啟蒙語言，我覺得是非常適合國人當做入門語言，當你學會易語言並能寫出一些功能程序後，再轉而學習其它更先進的語言，你會覺沒有想像中的那麼難，java、C#、PH...

易語言數據庫 Microsoft Access Java 技術軟件 PHP Excel 網絡遊戲 2019-09-08

'2019年京東搜索權重金字塔原理解析'

"據往年京東雙十一數據給很多商家帶來震撼形式的態度，那麼京東POP我覺得是佔據了市場份額比較小，可能非京東起家類目同比增加應該是日銷售額的十倍左右，我覺得，太大的浮動是沒有的，那麼這個數據給商家帶來什麼呢？那麼京東整體趨勢和轉化應該是比較明顯的那麼今年的京東搜索和分類的成交...

京東商城市場營銷電腦推薦技術茶數據庫 2019-09-06

'python的原理你瞭解多少呢？學會原理學習python，So easy'

"前言簡單來說互聯網是由一個個站點和網絡設備組成的大網，我們通過瀏覽器訪問站點，站點把HTML、JS、CSS代碼返回給瀏覽器，這些代碼經過瀏覽器解析、渲染，將豐富多彩的網頁呈現我們眼前；一、爬蟲是什麼？如果我們把互聯網比作一張大的蜘蛛網，數據便是存放於蜘蛛網的各個節點，而爬...

Python 瀏覽器網絡爬蟲 JSON Redis 數據庫 MySQL HTML CSS 西部數據技術 2019-09-04

'一種用於決策（decision-making）的系統架構'

"種用於決策（decision-making）的系統架構前言大數據（big data）時代什麼是大數據一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。是指無法在一...

大數據技術移動互聯網雲計算數據庫數據挖掘物聯網城市規劃電腦 Google 麻省理工學院硬件市場營銷智能硬件納特·西爾弗高德納集團 Velocity 2019-09-02

'秒殺系統架構優化思路'

"作者：大坑神來源：https://yq.aliyun.com/articles/69704一、為什麼秒殺這麼難秒殺系統難做的原因：庫存只有一份，所有人會在集中的時間讀和寫這些數據。例如小米手機每週二的秒殺，可能手機只有1萬部，但瞬時進入的流量可能是幾百幾千萬。又例如123...

數據庫瀏覽器 Redis MySQL 程序員小米手機 HTML 黑客 Memcached 2019-09-01

'Memcached的原理分析與配置'

"一、Why Memcached?• 高併發訪問數據庫的痛楚：死鎖！• 硬盤IO之痛：本機：AspNet：HttpRuntime.Cache• 多客戶端共享緩存• Net+Memory>>IO• 讀寫性能完美 Redies:Mm,1S：讀取可以1W次。寫：10W...

Memcached 數據庫 Windows NoSQL Redis 2019-08-31

'互聯網秒殺系統架構分析與實戰，建議收藏'

"作者：猿碼道來源：https://www.jianshu.com/p/df4fbecb1a4b1、秒殺業務分析正常電子商務流程1、查詢商品；2、創建訂單；3、扣減庫存；4、更新訂單；5、付款；6、賣家發貨；秒殺業務的特性1、低廉價格；2、大幅推廣；3、瞬時售空；4、一般是...

JavaScript 數據庫瀏覽器腳本語言收藏運營商算法技術 Redis 設計 2019-08-30

'在電商問題不斷暴露時代，來看看樂視電商雲的整體架構與技術實現'

"主題簡介本次分享將帶大家瞭解電商系統的發展過程，並分析在高速發展期的電商面臨的問題，同時跟大家分享樂視電商雲的架構和實踐方案。1. 電商系統發展過程電商網站在不同時期的架構複雜度有所不同：初創期：商品類型少，業務複雜度低，系統架構簡單。採用高可用數據庫、分佈式緩存、文件存...

電子商務技術樂視網軟件人力資源 DNS 硬件數據庫雲計算人生第一份工作 NoSQL 推薦技術通信路由器 2019-08-30

'一文詳解微服務架構'

"要理解微服務，首先要先理解不是微服務的那些。通常跟微服務相對的是單體應用，即將所有功能都打包成在一個獨立單元的應用程序。從單體應用到微服務並不是一蹴而就的，這是一個逐漸演變的過程。本文將以一個網上超市應用為例來說明這一過程。最初的需求幾年前，小明和小皮一起創業做網上超市。...

數據庫設計雲計算市場營銷創業歷史 2019-08-29

'在線支付之風控系統架構選型'

"來源 InfoQ作者康大強一、風險的構成和分類在線支付的風險主要如下：一個完整的支付風控體系應該包括風險識別、風險分析、風險控制、風險治理、案件管理等模塊，風險控制可區分為事前、事中、事後控制，利用實時計算技術，加上特定的風險識別規則或模型，可很好的做到風險的事前和事中...

移動支付 Storm HBase SQL 技術 IBM 數據庫算法 Spark Redis 2019-08-29

'微服務架構實踐之api-gateway'

"在微服務架構風格中，一個大應用通常會被拆分成為了多個小的服務系統提供出來，這些小的系統他們可以自成體系，也就是說這些小系統可以擁有自己的數據庫，框架甚至語言等，這些小系統通常以提供 Rest Api 風格的接口來被 H5, Android, IOS 以及第三方應用程序調用...

Dashboard 數據庫可視化技術 2019-08-28

'CC攻擊原理&防護手段！這裡告訴你怎麼辦'

"轉自CSDN，博主：一隻IT小小鳥。CC攻擊原理HTTP Flood 俗稱CC攻擊（Challenge Collapsar）是DDOS（分佈式拒絕服務）的一種，前身名為Fatboy攻擊，也是一種常見的網站攻擊方法。是針對 Web 服務在第七層協議發起的攻擊。攻擊者相較其他...

Linux DNS 數據庫 HTML 操作系統 FreeBSD 微軟通信腳本語言 CSDN 防火牆 Windows 2000 搜狐網易文章 2019-08-28

'兄弟，用大白話告訴你小白都能看懂的Hadoop架構原理'

"專注於Java領域優質技術，歡迎關注來自：石杉的架構筆記（id：shishan10）目錄一、前奏二、HDFS的NameNode架構原理一、前奏Hadoop是目前大數據領域最主流的一套技術體系，包含了多種技術。包括HDFS（分佈式文件系統），YARN（分佈式資源調度系統），...

Hadoop HDFS MySQL 技術 SQL 大數據 Spark 數據庫分佈式計算 Hive Java MapReduce 設計電子商務 2019-08-28

推薦中...