Python實現“維基百科六度分隔理論“之MySQL數據存儲

MySQL Python 維基百科編程語言 AiryData 2017-04-05

預備閱讀：Python實現“維基百科六度分隔理論“之基礎爬蟲

前言

上一篇我們學習了數據採集中一個頁面跳轉到另一個頁面的簡單爬蟲，雖然獲取了這些鏈接數據，但是由於鏈接數目太多，不好查看，所以我們要想辦法存儲起來。

這裡使用MySQL進行數據存儲，關於MySQL的使用，以及使用Python操作MySQL，在我之前的文章中都有提到。不瞭解的同學，右上角搜索一下歷史文章即可，或文章底部的相關文章也會有。

MySQL中的“六度空間遊戲”

前面我們已經建立了網絡爬蟲來採集網頁，今天我們要把採集到的信息用數據庫存儲起來，方便後面進行數據分析。MySQL基礎知識，在我之前的文章中說的已經很多了，這裡不再贅述，默認同學已經瞭解了MySQL。

為了確定最合理的信息存儲方式，我們要先想一下我們的處理規則。一個鏈接可以輕易地把頁面A連接到頁面B，就像百度搜索，搜出來的結果就可以鏈接到我的網站。同樣也可以把頁面B連接到頁面A，我只需要把百度的網址插入到這篇文章就可以，不過這就是另一條鏈接了。所以我們可以這樣識別一個鏈接：即“頁面A存在一個鏈接，可以連接到頁面B”。也就是說，INSERT INTO links(fromPageId, toPageId) VALUES(A, B);其中A和B分別表示頁面的ID號。

這裡我們設計一個帶有兩張數據表的數據庫來分別存儲頁面和鏈接，兩張表都帶有創建時間和獨立的ID號，代碼如下：

CREATE TABLE `wiki`.`pages`(
`id` INT NOT NULL AUTO_INCREMENT COMMENT '自增id，主鍵',
`url` VARCHAR(255) NOT NULL,
`created` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY(`id`)
);
CREATE TABLE `wiki`.`links`(
`id` INT NOT NULL AUTO_INCREMENT COMMENT '自增id，主鍵',
`fromPageId` INT NULL,
`toPageId` INT NULL,
`created` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY(`id`)
);

需要注意的是，這裡我沒有創建標題字段，因為，一般情況下，只有點擊鏈接進去才能看到網頁標題，不過對於維基百科來說還好，wiki的詞條鏈接和對應的頁面標題直接轉換一下就可以，例如en.wikipedia.org/wiki/Monty_Python的後面就是頁面標題Monty Python。

下面我們來寫一下把“貝肯數”（一個頁面與凱文·貝肯詞條頁面的鏈接數）不超過6的維基百科頁面存儲起來。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pymysql
#連接時，密碼要換成自己的
conn = pymysql.connect(host = '127.0.0.1', port = 3306, user = 'root', passwd = 'xxxxxxxx', db = 'wiki', charset = 'utf8mb4')
cur = conn.cursor()
#cur.execute("USE wiki")
def insertPageIfNotExists(url):
cur.execute("SELECT * FROM pages WHERE url = %s", (url))
if cur.rowcount == 0:
cur.execute("INSERT INTO pages (url) VALUES (%s)", (url))
conn.commit()
return cur.lastrowid
else:
return cur.fetchone()[0]
def insertLink(fromPageId, toPageId):
cur.execute("SELECT * FROM links WHERE fromPageId = %s AND toPageId = %s", (int(fromPageId), int(toPageId)))
if cur.rowcount == 0:
cur.execute("INSERT INTO links (fromPageId, toPageId) VALUES(%s, %s)", (int(fromPageId), int(toPageId)))
conn.commit()
pages = set()
def getLinks(pageUrl, recursionLevel):
global pages
if recursionLevel > 4:
return;
pageId = insertPageIfNotExists(pageUrl)
html = urlopen("http://en.wikipedia.org" + pageUrl)
soup = BeautifulSoup(html, "lxml")
for link in soup.findAll("a", href = re.compile("^(/wiki/)((?!:).)*$")):
insertLink(pageId, insertPageIfNotExists(link.attrs['href']))
if link.attrs['href'] not in pages:
#遇到新頁面，加入集合並搜索裡面的詞條鏈接
newPage = link.attrs['href']
pages.add(newPage)
getLinks(newPage, recursionLevel + 1)
getLinks("/wiki/Kevin_Bacon", 0)
cur.close()
conn.close()

上面的代碼就能獲取我們需要的鏈接，但是需要注意，由於維基百科裡面的鏈接很多，所以這個程序很費時間，為了節省時間，運行幾分鐘就可以中斷了，我運行了一兩分鐘，數據已經有兩千多條了，同時維基百科服務器也會拒絕程序請求。但是這些數據已經夠我們在後面進行鏈接路徑問題數據分析了。

小結

這裡我們重新複習了一下pymysql庫的用法，加深我們對之前知識的瞭解，提高問題解決能力，數據庫使我們存儲數據必不可少的工具，希望大家都能學一些基礎知識，具體內容可以看我前段時間發佈的MySQL基礎教程，後面還有高級內容哦。

希望通過上面的內容能幫助大家。如果你有什麼好的意見，建議，或者有不同的看法，我都希望你留言和我們進行交流、討論。

如果想快速聯繫我，歡迎關注微信公眾號：AiryData。

相關推薦

'Python批量刪除mysql中千萬級大量數據'

"場景描述線上 mysql 數據庫裡面有張表保存有每天的統計結果，每天有1千多萬條，這是我們意想不到的，統計結果咋有這麼多。運維找過來，磁盤佔了 200G ，最後問了運營，可以只保留最近3天的，前面的數據，只能刪了。刪，怎麼刪？關注，轉發，私信小編“01”即可免費領取Pyt...

Python MySQL 數據庫腳本語言 2019-09-15

'mysql 開發技巧（一）：這才是正確存儲樹形結構數據的方式'

"有時候我們的應用會保存一些樹形的數據結構，比如論壇回帖、公司的組織架構、商品分類、知識庫等相關的目錄樹結構，這些數據存在一種遞歸關係，那麼今天討論下我們怎麼去存儲樹形結構?傳統做法一般開發人員都會設計類似這樣的一個表結構，每條記錄都存儲著上一條記錄的父節點,可能是這樣一個...

MySQL 數據結構設計 2019-07-19

Python接口測試之數據驅動

在接口的自動化測試中，客戶端發送請求給服務端，在客戶端發送請求的時候，包含了請求地址，請求方法，以及請求參數等數據，那麼在接口的自動化測試中如何來分離這些...

Python Excel JSON 操作系統 2019-06-23

MySQL數據庫之存儲過程揭祕

什麼是存儲過程迄今為止，使用的大多數 SQL語句都是針對一個或多個表的單條語句。並非所有操作都這麼簡單，經常會有一個完整的操作需要多條語句才能完成。例如，考慮以下的情形。1、為了處理訂單，需要核對以保證庫存中有相應的物品。2、如果庫存有物品，這些物品需要預定以便不將它們...

MySQL 數據庫 SQL DBA 2019-06-22

Python入門實戰：一文看懂用Matplotlib實現數據可視化

導讀：獲取數據之後，而不知道如何查看數據，用途還是有限的。幸好，我們有Matplotlib！Matplotlib 是基於 NumPy 數組構建的多平臺數據...

Python 可視化技術腳本語言設計 R語言瀏覽器 MATLAB 2019-06-05

基於Python實現交互式數據可視化的工具(用於Web)

作者：Alark Joshi翻譯：陳雨琳校對：吳金笛本文2200字，建議閱讀8分鐘。本文將介紹實現數據可視化的軟件包。這學期（2018學年春季學期）我教授...

Python 可視化技術技術 Linux Windows FLOW OS X 動畫小提琴 2019-05-19

快速學會Python操作MySQL數據庫：數據科學家必備

歡迎來到數據科學探索，數據科學家是目前最稀缺的工作崗位之一，成為一名數據科學家就意味著站在了互聯網崗位鄙視鏈的頂端。歡迎關注數據科學探索，這裡有大量關於數據分析、數據挖掘、機器學習、爬蟲、可視化以及量化等相關領域的知識，希望能幫助各位在大數據的應用浪潮中抓住屬於自己的機遇！...

MySQL SQL 數據庫 Python 數據挖掘機器學習腳本語言網絡爬蟲可視化技術 2019-04-06

4種更快更簡單實現Python數據可視化的方法

選自towardsdatascience作者：George Seif機器之心編譯參與：Geek AI、劉曉坤熱力圖、二維密度圖、蜘蛛網圖和樹狀圖，這些可視...

編程語言 Python 可視化數據挖掘社交網絡 2018-12-05

MySQL海量數據分佈式存儲

本文只是一個概念，具體配置太多，這裡不做細節描述。1、分佈式應用的概念和優勢分佈式數據庫是指利用高速網絡將物理上分散的多個數據存儲單元連接起來組成一個邏輯...

MySQL 大數據地理 CPU 技術愛源碼 2018-01-03

機器學習之決策樹Python實現

決策樹算法，正如其名一樣，是基於樹結構的一種算法。如果繪製成圖形，有點流程圖的模樣，節點示意邏輯判斷，枝幹表示不同的條件，按照數據的特徵值，沿著分枝一步一...

機器學習編程語言 Python 香農數據魔法盒 2017-11-04

Python Web之Django連接MySQL數據庫

前言恭喜你，非常明智的選擇了Django作為你項目開發的基礎框架（手動滑稽）！1.1.Django項目連接mysql數據庫Django項目要操作數據庫，首...

編程語言 Django MySQL Python 技術棧 2017-10-14

後端開發：「批量插入海量數據之Java插入MySql」解決方案

Java學習交流群：495273252一、解析問題。Java向MySql數據庫插入萬級記錄時，採用的方案不同時執行速度會有所不同，數據量越大則優劣越明顯。...

SQL MySQL Java 編程語言 Java團長 2017-10-08

大數據面試題（涉及Python、R、MySQL），速度收藏！

數據科學世界在2015年經歷了翻天覆地的變化。數據科學家開始威脅到CIO作為公司最重要的技術影響者的角色。數據質量直接影響到未來，數據科學家受到追捧。加上...

Python SQL MySQL 編程語言 ITStar 2017-09-27

Python面向對象+正則表達式+操作mysql數據文檔大全學習知識點

Python 面向對象Python從設計之初就已經是一門面向對象的語言，正因為如此，在Python中創建一個類和對象是很容易的。本章節我們將詳細介紹Python的面向對象編程。如果你以前沒有接觸過面向對象的編程語言，那你可能需要先了解一些面嚮對象語言的一些基本特徵，在頭腦裡...

Python MySQL 面向對象程序編程編程語言 H5混合開發 2017-09-14

mysql-hbase存儲引擎插件實現大容量數據存儲

1、初衷：做一個集中的大容量存儲引擎1.1、起因自從進入公司運維部以後，雖然一直在做開發的工作，但是跟DBA同學可以“親密”接觸，從而可以體會到箇中的各種...

MySQL HBase HDFS LevelDB 中國大數據 2017-09-07

Python實現接口測試中的常見四種Post請求數據

在日常的接口測試工作中，模擬接口請求通常有兩種方法，利用工具來模擬，比如fiddler，postman，poster，soapUI等利用代碼來模擬，使用到...

編程語言 Python JSON XML python火火 2017-08-31

機器學習：Python實現聚類算法之K-Means

1.簡介K-means算法是最為經典的基於劃分的聚類方法，是十大經典數據挖掘算法之一。K-means算法的基本思想是：以空間中k個點為中心進行聚類，對最靠...

Python 機器學習編程語言大數據 2017-06-13

SpringBoot筆記之四：持久化數據之Mysql

在上一篇《SpringBoot筆記之三：用Thymeleaf渲染頁面》中已經介紹瞭如何通過Thymeleaf模板渲染Web頁面。這一篇文章來介紹下如何通過...

MySQL 編程語言 Java 科技 2017-06-11

數據存儲篇之MongoDB 使用場景

在介紹 MongoDB 能做什麼之前，先來了解下 MongoDB 不能做什麼事情。MongoDB是對傳統關係型數據庫的補充，但是 MongoDB 不支持事務，因此對事務性有要求的程序不建議使用 MongoDB。此外，MongoDB 也不支持表聯合查詢，而這個是關係型數據庫擅...

NoSQL MongoDB MapReduce MySQL 2017-06-04

Python學習筆記之數據的處理方法和技巧歸納總結（3）

文章結構：1.各數據類型的特點2.各數據類型的轉換3.各數據類型的處理方法4.運行測試5.技巧總結數據的處理方法和技巧歸納總結接著上一次筆記（python...

編程語言 Python PyCharm 文章 2017-06-01

推薦中...