爬蟲技能：MongoDB

MongoDB 數據庫網絡爬蟲設計 Python 數據結構十維教育 2019-06-28

關係型數據庫與非關係型數據庫:

MongoDB特性

MongoDB與RDBMS存儲結構

MongoDB與RDBMS最大的區別在於: 沒有固定的行列組織數據結構

一、MongoDB簡介

MongoDB是一款強大、靈活、且易於擴展的通用型數據庫。

1、易用性

 MongoDB是一個面向文檔（document-oriented）的數據庫，而不是關係型數據庫。
 不採用關係型主要是為了獲得更好得擴展性。當然還有一些其他好處，與關係數據庫相比，面向文檔的數據庫不再有“行“（row）的概念取而代之的是更為靈活的“文檔”（document）模型。
 通過在文檔中嵌入文檔和數組，面向文檔的方法能夠僅使用一條記錄來表現複雜的層級關係，這與現代的面嚮對象語言的開發者對數據的看法一致。另外，不再有預定義模式（predefined schema）： 文檔的鍵（key）和值（value）不再是固定的類型和大小。由於沒有固定的模式，根據需要添加或刪除字段變得更容易了。
通常由於開發者能夠進行快速迭代，所以開發進程得以加快。而且，實驗更容易進行。開發者能嘗試大量的數據模型，從中選一個最好的。

2、易擴展性

 應用程序數據集的大小正在以不可思議的速度增長。隨著可用帶寬的增長和存儲器價格的下降，即使是一個小規模的應用程序，需要存儲的數據量也可能大的驚人，甚至超出了很多數據庫的處理能力。過去非常罕見的T級數據，現在已經是司空見慣了。
 由於需要存儲的數據量不斷增長，開發者面臨一個問題：應該如何擴展數據庫，分為縱向擴展和橫向擴展，縱向擴展是最省力的做法，但缺點是大型機一般都非常貴，而且當數據量達到機器的物理極限時，花再多的錢也買不到更強的機器了，此時選擇橫向擴展更為合適，但橫向擴展帶來的另外一個問題就是需要管理的機器太多。
 MongoDB的設計採用橫向擴展。面向文檔的數據模型使它能很容易地在多臺服務器之間進行數據分割。MongoDB能夠自動處理跨集群的數據和負載，自動重新分配文檔，以及將用戶的請求路由到正確的機器上。這樣，開發者能夠集中精力編寫應用程序，而不需要考慮如何擴展的問題。如果一個集群需要更大的容量，只需要向集群添加新服務器，MongoDB就會自動將現有的數據向新服務器傳送。

3、豐富的功能

 MongoDB作為一款通用型數據庫，除了能夠創建、讀取、更新和刪除數據之外，還提供了一系列不斷擴展的獨特功能。
 #1、索引
 支持通用二級索引，允許多種快速查詢，且提供唯一索引、複合索引、地理空間索引、全文索引。
 #2、聚合
 支持聚合管道，用戶能通過簡單的片段創建複雜的集合，並通過數據庫自動優化。
 #3、特殊的集合類型
 支持存在時間有限的集合，適用於那些將在某個時刻過期的數據，如會話session。類似地，MongoDB也支持固定大小的集合，用於保存近期數據，如日誌等...
 #4、文件存儲
 支持一種非常易用的協議，用於存儲大文件和文件元數據。MongoDB並不具備一些在關係型數據庫中很普遍的功能，如鏈接join和複雜的多行事務。省略這些的功能是處於架構上的考慮，或者說為了得到更好的擴展性，因為在分佈式系統中這兩個功能難以高效地實現。

4、卓越的性能

 MongoDB的一個主要目標是提供卓越的性能，這很大程度上決定了MongoDB的設計。MongoDB把儘可能多的內存用作緩存cache，視圖為每次查詢自動選擇正確的索引。
 總之各方面的設計都旨在保持它的高性能。雖然MongoDB非常強大並試圖保留關係型數據庫的很多特性，但它並不追求具備關係型數據庫的所有功能。只要有可能，數據庫服務器就會將處理邏輯交給客戶端。這種精簡方式的設計是MongoDB能夠實現如此高性能的原因之一。

二、MongoDB基礎知識

1、文檔是MongoDB的核心概念。文檔就是鍵值對的一個有序集{'msg':'hello','foo':3}。類似於python中的有序字典。

需要注意的是：
#1、文檔中的鍵/值對是有序的。
#2、文檔中的值不僅可以是在雙引號裡面的字符串，還可以是其他幾種數據類型（甚至可以是整個嵌入的文檔)。
#3、MongoDB區分類型和大小寫。
#4、MongoDB的文檔不能有重複的鍵。
#5、文檔中的值可以是多種不同的數據類型，也可以是一個完整的內嵌文檔。文檔的鍵是字符串。除了少數例外情況，鍵可以使用任意UTF-8字符。
文檔鍵命名規範：
#1、鍵不能含有\0 (空字符)。這個字符用來表示鍵的結尾。
#2、.和$有特別的意義，只有在特定環境下才能使用。
#3、以下劃線"_"開頭的鍵是保留的(不是嚴格要求的)。

2、集合就是一組文檔。如果將MongoDB中的一個文檔比喻為關係型數據的一行，那麼一個集合就是相當於一張表

#1、集合存在於數據庫中，通常情況下為了方便管理，不同格式和類型的數據應該插入到不同的集合，但其實集合沒有固定的結構，這意味著我們完全可以把不同格式和類型的數據統統插入一個集合中。
#2、組織子集合的方式就是使用“.”，分隔不同命名空間的子集合。
比如一個具有博客功能的應用可能包含兩個集合，分別是blog.posts和blog.authors，這是為了使組織結構更清晰，這裡的blog集合（這個集合甚至不需要存在）跟它的兩個子集合沒有任何關係。
在MongoDB中，使用子集合來組織數據非常高效，值得推薦
#3、當第一個文檔插入時，集合就會被創建。合法的集合名：
集合名不能是空字符串""。
集合名不能含有\0字符（空字符)，這個字符表示集合名的結尾。
集合名不能以"system."開頭，這是為系統集合保留的前綴。
用戶創建的集合名字不能含有保留字符。有些驅動程序的確支持在集合名裡面包含，這是因為某些系統生成的集合中包含該字符。除非你要訪問這種系統創建的集合，否則千萬不要在名字裡出現$。

3、數據庫：在MongoDB中，多個文檔組成集合，多個集合可以組成數據庫

數據庫也通過名字來標識。數據庫名可以是滿足以下條件的任意UTF-8字符串：
#1、不能是空字符串（"")。
#2、不得含有' '（空格)、.、$、/、\和\0 (空字符)。
#3、應全部小寫。
#4、最多64字節。
有一些數據庫名是保留的，可以直接訪問這些有特殊作用的數據庫。
#1、admin： 從身份認證的角度講，這是“root”數據庫，如果將一個用戶添加到admin數據庫，這個用戶將自動獲得所有數據庫的權限。再者，一些特定的服務器端命令也只能從admin數據庫運行，如列出所有數據庫或關閉服務器
#2、local: 這個數據庫永遠都不可以複製，且一臺服務器上的所有本地集合都可以存儲在這個數據庫中
#3、config: MongoDB用於分片設置時，分片信息會存儲在config數據庫中

4、強調：把數據庫名添加到集合名前，得到集合的完全限定名，即命名空間

例如：
如果要使用cms數據庫中的blog.posts集合，這個集合的命名空間就是
cmd.blog.posts。命名空間的長度不得超過121個字節，且在實際使用中應該小於100個字節

三、安裝

1、安裝

#1、安裝路徑為D:\MongoDB，將D:\MongoDB\bin目錄加入環境變量
#2、新建目錄與文件
D:\MongoDB\data\db
D:\MongoDB\log\mongod.log
#3、新建配置文件mongod.cfg,參考：https://docs.mongodb.com/manual/reference/configuration-options/
systemLog:
 destination: file
 path: "D:\MongoDB\log\mongod.log"
 logAppend: true
storage:
 journal:
 enabled: true
 dbPath: "D:\MongoDB\data\db"
net:
 bindIp: 0.0.0.0
 port: 27017
setParameter:
 enableLocalhostAuthBypass: false
 
#4、製作系統服務
mongod --config "D:\MongoDB\mongod.cfg" --bind_ip 0.0.0.0 --install
或者直接在命令行指定配置
mongod --bind_ip 0.0.0.0 --port 27017 --logpath D:\MongoDB\log\mongod.log --logappend --dbpath D:\MongoDB\data\db --serviceName "MongoDB" --serviceDisplayName "MongoDB" --install
#5、啟動\關閉
net start MongoDB
net stop MongoDB
#6、登錄
mongo
鏈接：http://www.runoob.com/mongodb/mongodb-window-install.html

2、賬號管理

#賬號管理：https://docs.mongodb.com/master/tutorial/enable-authentication/
# 1、創建賬號
use admin
db.createUser(
 {
 user: "root",
 pwd: "123",
 roles: [ { role: "root", db: "admin" } ]
 }
)
use test
db.createUser(
 {
 user: "tank",
 pwd: "123",
 roles: [ { role: "readWrite", db: "test" },
 { role: "read", db: "db1" } ]
 }
)
# 2、重啟數據庫
mongod --remove
mongod --config "C:\mongodb\mongod.cfg" --bind_ip 0.0.0.0 --install --auth
# 3、登錄：注意使用雙引號而非單引號
mongo --port 27017 -u "root" -p "123" --authenticationDatabase "admin"
也可以在登錄之後用db.auth("賬號","密碼")登錄
mongo
use admin
db.auth("root","123")
# 推薦博客:https://www.cnblogs.com/zhoujinyi/p/4610050.html

mongo -u "root" -p "123" --authenticationDatabase "admin"

mysql -u root -p 123

3、命令行shell

1、mongo 127.0.0.1:27017/config #連接到任何數據庫config
2、mongo --nodb #不連接到任何數據庫
3、啟動之後，在需要時運行new Mongo(hostname)命令就可以連接到想要的mongod了：
> conn=new Mongo('127.0.0.1:27017')
connection to 127.0.0.1:27017
> db=conn.getDB('admin')
admin
4、help查看幫助
5、mongo時一個簡化的JavaScript shell，是可以執行JavaScript腳本的
shell命令行

四、基本數據類型

1、在概念上，MongoDB的文檔與Javascript的對象相近，因而可以認為它類似於JSON。JSON（http://www.json.org）是一種簡單的數據表示方式：其規範僅用一段文字就能描述清楚（其官網證明了這點），且僅包含六種數據類型。

2、這樣有很多好處：易於理解、易於解析、易於記憶。然而從另一方面說，因為只有null、布爾、數字、字符串、數字和對象這幾種數據類型，所以JSON的表達能力有一定的侷限。

3、雖然JSON具備的這些類型已經具有很強的表現力，但絕大數應用（尤其是在於數據庫打交道時）都還需要其他一些重要的類型。例如，JSON沒有日期類型，這使得原本容易日期處理變得煩人。另外，JSON只有一種數字類型，無法區分浮點數和整數，更別區分32位和64位了。再者JSON無法表示其他一些通用類型，如正則表達式或函數。

4、MongoDB在保留了JSON基本鍵/值對特性的基礎上，添加了其他一些數據類型。在不同的編程語言下，這些類型的確切表示有些許差異。下面說明了MongoDB支持的其他通用類型，以及如何正在文檔中使用它們

#1、null：用於表示空或不存在的字段
d={'x':null}
#2、布爾型：true和false
d={'x':true,'y':false}
#3、數值
d={'x':3,'y':3.1415926}
#4、字符串
d={'x':'kermit'}
#5、日期
d={'x':new Date()}
d.x.getHours()
#6、正則表達式
d={'pattern':/^kermit.*?nb$/i}
正則寫在／／內，後面的i代表:
i 忽略大小寫
m 多行匹配模式
x 忽略非轉義的空白字符
s 單行匹配模式
#7、數組
d={'x':[1,'a','v']}
#8、內嵌文檔
user={'name':'tank','addr':{'country':'China','city':'YT'}}
user.addr.country
#9、對象id:是一個12字節的ID,是文檔的唯一標識，不可變
d={'x':ObjectId()}

5、_id 和 ObjectId

MongoDB中存儲的文檔必須有一個"_id"鍵。這個鍵的值可以是任意類型，默認是個ObjectId對象。
在一個集合裡，每個文檔都有唯一的“_id”,確保集合裡每個文檔都能被唯一標識。
不同集合"_id"的值可以重複，但同一集合內"_id"的值必須唯一
#1、ObjectId
ObjectId是"_id"的默認類型。因為設計MongoDb的初衷就是用作分佈式數據庫，所以能夠在分片環境中生成
唯一的標識符非常重要，而常規的做法：在多個服務器上同步自動增加主鍵既費時又費力，這就是MongoDB採用
ObjectId的原因。
ObjectId採用12字節的存儲空間，是一個由24個十六進制數字組成的字符串
 0|1|2|3| 4|5|6| 7|8 9|10|11 
 時間戳 機器 PID 計數器
如果快速創建多個ObjectId，會發現每次只有最後幾位有變化。另外，中間的幾位數字也會變化（要是在創建過程中停頓幾秒）。
這是ObjectId的創建方式導致的，如上圖
時間戳單位為秒，與隨後5個字節組合起來，提供了秒級的唯一性。這個4個字節隱藏了文檔的創建時間，絕大多數驅動程序都會提供
一個方法，用於從ObjectId中獲取這些信息。
因為使用的是當前時間，很多用戶擔心要對服務器進行時鐘同步。其實沒必要，因為時間戳的實際值並不重要，只要它總是不停增加就好。
接下來3個字節是所在主機的唯一標識符。通常是機器主機名的散列值。這樣就可以保證不同主機生成不同的ObjectId，不產生衝突
接下來連個字節確保了在同一臺機器上併發的多個進程產生的ObjectId是唯一的
前9個字節確保了同一秒鐘不同機器不同進程產生的ObjectId是唯一的。最後3個字節是一個自動增加的 計數器。確保相同進程的同一秒產生的
ObjectId也是不一樣的。
#2、自動生成_id
如果插入文檔時沒有"_id"鍵，系統會自幫你創建 一個。可以由MongoDb服務器來做這件事。
但通常會在客戶端由驅動程序完成。這一做法非常好地體現了MongoDb的哲學：能交給客戶端驅動程序來做的事情就不要交給服務器來做。
這種理念背後的原因是：即便是像MongoDB這樣擴展性非常好的數據庫，擴展應用層也要比擴展數據庫層容易的多。將工作交給客戶端做就
減輕了數據庫擴展的負擔。

五 CRUD操作（create、read、update、delete）

1、數據庫操作

#1、增
use config #如果數據庫不存在，則創建數據庫，否則切換到指定數據庫。
#2、查
show dbs #查看所有
可以看到，我們剛創建的數據庫config並不在數據庫的列表中， 要顯示它，我們需要向config數據庫插入一些數據。
db.table1.insert({'a':1})
#3、刪
use config #先切換到要刪的庫下
db.dropDatabase() #刪除當前庫

2、集合操作

#1、增
當第一個文檔插入時，集合就會被創建
> use database1
switched to db database1
> db.table1.insert({'a':1})
WriteResult({ "nInserted" : 1 })
> db.table2.insert({'b':2})
WriteResult({ "nInserted" : 1 })
#2、查
> show tables
table1
table2
#3、刪
> db.table1.drop()
true
> show tables
table2

3、文檔操作

增

# 1、沒有指定_id則默認ObjectId,_id不能重複，且在插入後不可變
#2、插入單條
user0={
 "name":"tank",
 "age":10,
 'hobbies':['music','read','dancing'],
 'addr':{
 'country':'China',
 'city':'GD'
 }
}
db.test.insert(user0)
db.test.find()
#3、插入多條
user1={
 "_id":1,
 "name":"tank",
 "age":10,
 'hobbies':['music','read','dancing'],
 'addr':{
 'country':'China',
 'city':'GuangZhou'
 }
}
user2={
 "_id":2,
 "name":"egon",
 "age":20,
 'hobbies':['music','read','run'],
 'addr':{
 'country':'China',
 'city':'ShanDong'
 }
}
user3={
 "_id":3,
 "name":"jason",
 "age":30,
 'hobbies':['music','drink'],
 'addr':{
 'country':'China',
 'city':'AnHui'
 }
}
user4={
 "_id":4,
 "name":"kevin",
 "age":40,
 'hobbies':['music','read','dancing','tea'],
 'addr':{
 'country':'China',
 'city':'ShanDong'
 }
}
user5={
 "_id":5,
 "name":"nick",
 "age":50,
 'hobbies':['music','read',],
 'addr':{
 'country':'China',
 'city':'SH'
 }
}
db.user.insertMany([user1,user2,user3,user4,user5])

查

# 比較運算符
# SQL：=,!=,>,<,>=,<=
# MongoDB：{key:value}代表什麼等於什麼,"$ne","$gt","$lt","gte","lte",其中"$ne"能用於所有數據類型
# 1.select * from db1.user where id = 1;
# 2.select * from db1.user where id != 1;
# 3.select * from db1.user where id > 2;
# 4.select * from db1.user where age < 30;
# 5.select * from db1.user where id >= 2;
# 6.select * from db1.user where id <= 5;
# 邏輯運算符
 $and, $or, $not
# 1.$and
mysql：
select * from db1.user where id >= 3 and id <= 4;
select * from db1.user where id >=3 and id <=4 and age > 20;
# 先獲取條件內有的， 然後通過$and來進行判斷
select * from db1.user where id >=2 and id <=5 and age > 30; 
# 2.$or
select * from db1.user where id >=0 and id <=1 or id >= 4 or name = "egon";
# 3.$mod
select * from db1.user where id % 2 =1;
# 4.not
db.user.find({"_id":{
		"$not": {"$mod":[2, 1]}
		}})

 # 成員運算
 $in $nin
　　　　　有egon與kevin名字的
 
　　　　 沒有tank名字的
 # 正則匹配
 select * from db1.user where name regexp "^ke.*?(g|n)$";
 > db.user.find({"name": /^ke.*?(g|n)$/i)
 
 
 
 # 查看指定字段 1代表True 0代表False
 select name, age from db1.user where name regexp "^ke.*?(n|g)$";
 db.user.find(
 {
 "name": /^ke.*?(g|n)$/i
 },
 {
 "_id": 0,
 "name": 1,
 "age":1
 }
 )
 
 
 # 查詢數組相關的
 # 查找音樂愛好的選手
 db.user.find({
 "hobbies": "music" 
 })
 
 # 我要寫多個愛好，有好多，寫到哪裡去
 # 是不是寫到數組裡面去，查找既有音樂又有籃球的選手
 db.user.find({
 "hobbies":{"$all":["music", "basketball"]}
 })
 
 # 查找第二個愛好是籃球的
 db.user.find({"hobbies.1": "basketball"})
# 來，你給我找出所有人的後兩個愛好
 db.user.find(
 {},
 {
 "_id": 0,
 "name": 0,
 "age": 0,
 "addr": 0,
 # "hobbies": 1
 "hobbies": {"$slice": -2}
 }
 ) 
 
 # 查找第一和第二個愛好
 db.user.find(
 {},
 {
 "_id": 0,
 "name": 0,
 "age": 0,
 "addr": 0,
 "hobbies": {"$slice": [0, 2]}
 }
 ) 
 
 # 補充: addr.
 # 針對查找內嵌文檔的方式 
 # 我要找到addr下面city為hebei的
 db.user.find({"addr.city": "guangzhou"})
 
 
 
 # 排序
 # 升序 sort()
 db.user.find().sort({"_id": 1})
 # 降序
 db.user.find().sort({"_id": -1})
 db.user.find().sort({"_id": 1, "age": -1}})
 
 
 # 分頁查詢 limit()
 # 分頁兩條
 db.user.find().limit(2)
 # 從第0頁開始分頁
 db.user.find().limit(2).skip(0)
 # 從第2頁開始分頁
 db.user.find().limit(2).skip(2)
 # 從第4頁開始分頁
 db.user.find().limit(2).skip(4)
 
 
 # 查找數量
 db.user.count()
 
 # 雜項目
 db.t2.insert({"a": 10, "b":5})
 db.t2.insert({"a": 10, "b":null})
 db.t2.insert({"a": 10}) 
 
 # 查看key為b的和b的值為null的
 db.t2.find({"b":null})
 { "_id":ObjectId("5c4888c5ce1c93e5aba5b2b3"),"a":10,"b":null}
 { "_id" : ObjectId("5c4888c7ce1c93e5aba5b2b4"), "a" : 10 }

爬蟲技能：MongoDB

相關推薦