Mongodb Geo2d索引原理

NoSQL MongoDB 騰訊雲計算技術科技優家 2017-04-11

作者：孔德雨

MongoDB的geo索引是其一大特色，本文從原理層面講述geo索引中的2d索引的實現。

2d 索引的創建與使用

通過 db.coll.createIndex({"lag":"2d"}, {"bits":int}))來創建一個2d索引，索引的精度通過bits來指定，bits越大，索引的精度就越高。更大的bits帶來的插入的overhead可以忽略不計。

通過

db.runCommand({ 
    geoNear: tableName, 
    maxDistance: 0.0001567855942887398, 
    distanceMultiplier: 6378137.0, 
    num: 30, 
    near: [ 113.8679388183982, 22.58905429302385 ], 
    spherical: true|false})

來查詢一個索引，其中spherical：true|false 表示應該如何理解創建的2d索引，false表示將索引理解為平面2d索引，true表示將索引理解為球面經緯度索引。這一點比較有意思，一個2d索引可以表達兩種含義，而不同的含義是在查詢時被理解的，而不是在索引創建時。

2d索引的理論

Mongodb 使用一種叫做Geohash的技術來構建2d索引，但是Mongodb的Geohash並沒有使用國際通用的每一層級32個grid的Geohash描述方式（見wiki geohash)。而是使用平面四叉樹的形式。

如下圖：

很顯然的，一個2bits的精度能把平面分為4個grid，一個4bits的精度能把平面分為16個grid。2d索引的默認精度是長寬各為26，索引把地球分為(2^26)(2^26)塊，每一塊的邊長估算為

2*PI*6371000/(1<<26) = 0.57 米

mongodb的官網上說的60cm的精度就是這麼估算出來的:

By default, a 2d index on legacy coordinate pairs uses 26 bits of precision, which is roughly equivalent to 2 feet or 60 centimeters of precision using the default range of -180 to 180.

2d索引在Mongodb中的存儲

上面我們講到Mongodb使用平面四叉樹的方式計算Geohash。事實上，平面四叉樹僅存在於運算的過程中，在實際存儲中並不會被使用到。

插入

對於一個經緯度座標[x,y]，MongoDb計算出該座標在2d平面內的grid編號，該編號為是一個52bit的int64類型，該類型被用作btree的key，因此實際數據是按照 {GeoHashId->RecordValue}的方式被插入到btree中的。

查詢

對於geo2D索引的查詢，常用的有geoNear和geoWithin兩種。geoNear查找距離某個點最近的N個點的座標並返回，該需求可以說是構成了LBS服務的基礎（陌陌，滴滴，摩拜）， geoWithin是查詢一個多邊形內的所有點並返回。我們著重介紹使用最廣泛的geoNear查詢。

geoNear的查詢過程

geoNear的查詢語句如下：

db.runCommand(
   {
     geoNear: "places", //table Name
     near: [ -73.9667, 40.78 ] ,  // central point
     spherical: true,  // treat the index as a spherical index
     query: { category: "public" }  // filters
     maxDistance: 0.0001531 //  distance in about one kilometer
   }
)

geoNear可以理解為一個從起始點開始的不斷向外擴散的環形搜索過程。如下圖所示：

由於圓自身的性質，外環的任意點到圓心的距離一定大於內環任意點到圓心的距離，所以以圓環進行擴張迭代的好處是：

1）減少需要排序比較的點的個數2）能夠儘早發現滿足條件的點從而返回，避免不必要的搜索

點集密度估算

那麼，如何確定初始迭代步長呢，mongoDB認為初始迭代步長和點集密度相關。

geoNear 會根據點集的密度來確定迭代的初始步長。估算步驟如下：

1）從最小步長默認為60cm向外以矩形範圍搜索，如果範圍內有至少一個點，則停止搜索，轉3）否則轉 2)

2）步長倍增，繼續步驟1）

3）以矩形對角線長度的三倍作為初始迭代步長。

圓環覆蓋與索引前綴原理

上面我們說過，每一次的搜索都是以圓環為單位進行的，但是真實存入Btree中的是{GeoHashId->RecordValue}，計算出與圓環相交的所有邊長60cm的格子的GeoHash的值並在Btree中搜素絕對是一個非常愚蠢的做法，因為如果圓環的面積很大，光是枚舉所有的GeoHash就有上百萬個。

但是換個角度來看，其實以地球為一個整體去看待存儲的點，絕對是稀疏的。這個稀疏的性質使得我們可以粗略的以平面四叉樹的角度自上而下的找出與圓環相交的四叉樹中間節點。

整個平面與圓環必然是相交的，於是將平面一分為四，剔除不相交的部分，對於每個留下來的子平面，繼續一分為四，剔除不相交的部分，經過多輪迭代，留下來的子平面的GeoHash都是該子平面中所有grid的索引前綴，如下面四幅圖所示：

上面四幅圖中，分別為整個平面被四叉樹劃分0,1,2,3次後與圓環的相交情況，如果繼續往下細分，所形成的圖形就越來越逼近整個圓環。MongoDB中使用參數internalGeoNearQuery2DMaxCoveringCells來限制最多逼近到多少個子平面與圓環相交，默認為16。

我們注意到，上述平面劃分過程為四叉樹的分裂過程，每一次分裂都使得遞歸搜索的子平面與父平面有相同的GeoHash前綴（這裡需要思考為什麼，可能不太明顯），因此每一個子平面可以對應於BTree中一段連續的Range(這裡又是為什麼？)，也正因此，該參數越大，會使得需要搜索的子平面越少，但是會使得Btree的Range搜索更趨向於隨機化搜索，導致更多的IO。我們知道Btree更適合於做Range搜索，所以對該參數的調整需要慎重。

展望

MongoDB原生的geoNear接口是國內各大LBS應用的主流選擇。騰訊雲的MongoDB專家經過測試發現，在點集稠密的情況下，MongoDB原生的geoNear接口效率會急劇下降，單機甚至不到1000QPS。騰訊雲MongoDB對此進行了持續的優化，在不影響效果的前提下，geoNear的效率有10倍以上的提升，建議大家選擇騰訊雲MongoDB作為LBS應用的存儲方案。

相關推薦

'MongoDB，Redis，Memcache三者之間的優缺點你真的明白？'

"前面兩期給大家講解了nosql，記以及三者之間的區別今天這期主要給大家介紹下這三者的優缺點分別是什麼？看完之後希望能有夠對這三個有一個更加深入的認識MongoDB優缺點優點1，內置GridFS，支持大容量的存儲， GridFS是一個出色的分佈式文件系統，可以支持海量的數據...

Redis Memcached MongoDB 中央處理器硬件 NoSQL MySQL 大數據數據庫 2019-09-15

'Memcached的原理分析與配置'

"一、Why Memcached?• 高併發訪問數據庫的痛楚：死鎖！• 硬盤IO之痛：本機：AspNet：HttpRuntime.Cache• 多客戶端共享緩存• Net+Memory>>IO• 讀寫性能完美 Redies:Mm,1S：讀取可以1W次。寫：10W...

Memcached 數據庫 Windows NoSQL Redis 2019-08-31

'redis相關原理及面試官由淺到深必問的15大問題（高級）'

"1.redis是什麼？redis是nosql(也是個巨大的map) 單線程，但是可處理1秒10w的併發（數據都在內存中）使用java對redis進行操作類似jdbc接口標準對mysql，有各類實現他的實現類，我們常用的是druid其中對redis，我們通常用Jedis(也...

Redis Java 數據結構 NoSQL 算法 JSON pong 2019-08-24

'MongoDB 是什麼？看完你就知道了'

"點擊上方藍色字體，選擇“置頂公眾號”優質文章，第一時間送達鏈接 | blog.csdn.net/hayre/article/details/806284311.MongoDB是什麼？用一句話總結MongoDB是一款為web應用程序和互聯網基礎設施設計的數據庫管理系統。沒錯...

MongoDB 數據庫 MySQL SQL NoSQL JSON 數據結構操作系統技術設計文章 Redis 2019-08-19

'mongodb索引--1億條記錄的查詢從55.7秒到毫秒級別'

"從頭開始，驗證mongodb的索引的好處。(window7環境下)1 下載mongodb服務器，並解壓到d盤，並使用以下命令啟動 mongod --dbpath D:\\mongodb\\data2 mongo客戶端Robo 3T 去官網下載，安裝3 準備數據，條數為1億...

MongoDB 數據庫數據結構 2019-08-18

'十次方社交系統第3章-文檔型數據庫MongoDB'

"學習目標：理解MongoDb的特點和體系結構掌握常用的MongoDB命令能夠運用Java操作MongoDB使用SpringDataMongoDB完成吐槽微服務的開發1MongoDB簡介1.1吐槽和評論數據特點分析吐槽和評論兩項功能存在以下特點：（1）數據量大（2）寫入操作...

MongoDB 數據庫 JSON JavaScript 軟件雲計算 NoSQL Java Python Erlang Ruby PHP 2019-08-08

'太原中軟分享程序員不得不瞭解的前後端分離原理'

"對目前的web來說，前後端分離已經變得越來越流行了，越來越多的企業/網站都開始往這個方向靠攏。那麼，為什麼要選擇前後端分離呢？前後端分離對實際開發有什麼好處呢？一、開發人員分離以前的JavaWeb項目大多數都是Java程序員又當爹又當媽，又搞前端，又搞後端。隨著時代的發展...

程序員 Linux 瀏覽器工程師 Java JSP 技術設計模式 DNS 人生第一份工作 MySQL Node.js Java虛擬機 HTML5 JavaScript 太原 MongoDB jQuery CSS Google Eclipse 2019-08-08

'淺入淺出MongonDB，教你輕鬆應對面試中遇到的MongonDB索引問題'

"前言索引是特殊的數據結構，索引存儲在一個易於遍歷讀取的數據集合中（索引存儲在特定字段或字段集的值），而且是使用了B-tree結構。索引可以極大程度提升MongoDB查詢效率。如果沒有索引，MongoDB必須執行全集合collections掃描，即掃描集合中的每個文檔，...

MongoDB 數據庫人生第一份工作數據結構 2019-08-07

'海量結構化數據存儲技術揭祕：Tablestore存儲和索引引擎詳解'

"前言表格存儲Tablestore是阿里雲自研的面向海量結構化數據存儲的Serverless NoSQL多模型數據庫。Tablestore在阿里雲官網上有各種文檔介紹，也發佈了很多場景案例文章，這些文章收錄在這個合集中《表格存儲Tablestore權威指南》。值得一提的是，...

數據庫 HBase 數據結構 NoSQL 阿里雲計算 MySQL Google BigTable 文章 2019-07-28

學習python怎麼能不知道爬蟲，帶你瞭解爬蟲原理

對於學習python的人來說，爬蟲是非常重要的知識點，很多人都對爬蟲的知識點非常感興趣，學好了爬蟲更是可以輕鬆找到一份相關工作。那麼，爬蟲原理是什麼呢？下...

網絡爬蟲 Python JSON 瀏覽器 MySQL CSS Redis 數據庫 HTML MongoDB 西部數據 2019-07-14

第一季度財報超預期，MongoDB離盈利還有多遠？

摘要MongoDB繼續通過合作、收購和產品發佈擴大其市場範圍。市場對MongoDB很滿意，目前其股價為154.98美元，市值90億美元。上月稍早觸及184...

MongoDB 數據庫 Y Combinator Google NoSQL 2019-07-14

在你的Python應用程序中測試MongoDB故障轉移

（此處已添加圈子卡片，請到今日頭條客戶端查看）Python是一種強大而靈活的編程語言，全世界有數百萬開發人員使用它來構建他們的應用程序。Python開發人...

MongoDB Python 數據庫跳槽那些事兒編程語言 NoSQL 設計 2019-07-08

分佈式鍵值存儲 Dynamo 的實現原理

在最近的一週時間裡，一直都在研究和閱讀 Amazon 的一篇論文《Dynamo: Amazon’s Highly Available Key-value...

BigTable 數據庫 NoSQL 亞馬遜公司設計 LevelDB Google 算法 GFS MongoDB 文章 2019-07-04

只會MySQL不熟悉MongoDB？阿里架構師總結的MongoDB實戰PDF送給你

MongoDB是一個非常有前途的數據庫，MongoDB官方對自己的定位是通用數據庫，其實這個定位跟MySQL有些像。雖其流行度還遠未達到MySQL的水平，...

MongoDB MySQL 數據庫 MapReduce 腳本語言 JavaScript 大數據 JSON Java NoSQL Intuit 亞馬遜公司 HBase PHP 數據結構開源軟件 Foursquare Redis Amazon EC2 Python 文章 2019-07-01

如何深入學習MongoDB？這本MongoDB實戰PDF值得一看

MongoDB是一個非常有前途的數據庫，MongoDB官方對自己的定位是通用數據庫，其實這個定位跟MySQL有些像。雖其流行度還遠未達到MySQL的水平，...

MongoDB 數據庫 MapReduce MySQL 腳本語言 JSON JavaScript 大數據 HBase NoSQL Java Intuit PHP Redis Foursquare 數據結構亞馬遜公司編程語言開源軟件 Amazon EC2 Python 2019-06-30

爬蟲技能：MongoDB

關係型數據庫與非關係型數據庫:MongoDB特性MongoDB與RDBMS存儲結構MongoDB與RDBMS最大的區別在於: 沒有固定的行列組織數據結構一...

MongoDB 數據庫網絡爬蟲設計 Python 數據結構 2019-06-28

MongoDB挑戰傳統數據庫：非結構化數據庫的迭新不容小覷

相比甲骨文中國在中國市場的裁員風波，同為數據庫服務的MongoDB顯得更為樂觀。“MongoDB是中國開發者最喜歡用的一個數據庫。”MongoDB全球渠道...

數據庫 MongoDB 甲骨文公司開源軟件軟件 GNU 技術微軟物聯網上海 IBM 雲計算歷史 Linux 眾包 EMC 金融大數據 2019-06-26

MongoDB是什麼，怎麼用？看完你就知道了

來源：http://suo.im/5e8a94一、概述1.MongoDB是什麼？用一句話總結MongoDB是一款為web應用程序和互聯網基礎設施設計的數據...

MongoDB 數據庫 MySQL SQL NoSQL JSON 技術操作系統數據結構設計 DBA Redis 2019-06-17

區塊鏈數據存儲工作原理詳解，你懂嗎？

在大型、集中式的數據中心中存儲數據，往往存在性能、可用性和可擴展性等方面問題，同時也會帶來較高的資本或運營支出。而且，集中存儲數據也極易受到複雜網絡攻擊。...

區塊鏈數據庫技術地理 NoSQL P2P理財比特幣跳槽那些事兒 2019-06-10

Hbase架構與原理

Hbase架構與原理HBase是一個分佈式的、面向列的開源數據庫，該技術來源於 Fay Chang所撰寫的Google論文“Bigtable：一個結構化數...

HBase Hadoop HDFS 數據庫 Google文檔 MapReduce Java 技術 Apache BigTable Google NoSQL 穿越火線 2019-05-17

推薦中...