python網絡數據採集 wiki貝肯數6代碼

編程語言 Python Pages Links C加加 2017-04-29

今天給大家帶來的是wiki貝肯數6的代碼，大家可以評論一下哪裡需要改的

from bs4 import BeautifulSoup

from urllib.request import urlopen

import re

import pymysql

conn = pymysql.connect(host = '127.0.0.1',port = 3306, user = 'root', passwd = '12345', db = 'mysql', charset = 'utf8')

cur = conn.cursor()

cur.execute("use wikipedia") # 使用數據庫wikipedia

def insertPageIfNotExists(url): # page表

cur.execute("select * from pages where url = %s",(url)) #根據半截url鏈接查找

if cur.rowcount == 0: #使用cur.rowcount獲取結果集的條數,如果是0

cur.execute("insert into pages (url) values (%s)",(url)) # 將此url插入數據庫

想要一起學習python的可以加群556982049，群裡有大量學習資料，還有大神解答問題，你們可以訂閱轉發一下

conn.commit()

return cur.lastrowid # 最後插入行的主鍵？？？

else: # 如果查詢到了數據

return cur.fetchone()[0] # fetchone()取得結果集的下一行，返回一個單獨的序列，沒有可用數據則返回None，這裡[0]項是id

def insertLink(fromPageId,toPageId): # links表

cur.execute("select * from links where fromPageId = %s and toPageId = %s",(int(fromPageId),int(toPageId)))

if cur.rowcount == 0:

cur.execute("insert into links (fromPageId,toPageId) values(%s,%s)",(int(fromPageId),int(toPageId)))

conn.commit()

pages = set()

def getLinks(pageUrl,recursionLevel):

global pages

if recursionLevel > 4: # 如果遞歸次數大於4

return;

pageId = insertPageIfNotExists(pageUrl) # 返回pages表裡的數據的id號

html = urlopen("http://en.wikipedia.org"+pageUrl) # http://en.wikipedia.org/wiki/Kevin_Bacon

bsObj = BeautifulSoup(html,'html.parser')

for link in bsObj.findAll("a",href = re.compile("^(/wiki/)((?!:).)*$")): # 找到當前詞條頁面內所有/wiki開頭的詞條鏈接

# 將頁內鏈接存入pages，返回id，然後將兩個id存入links表

insertLink(pageId,insertPageIfNotExists(link.attrs['href'])) # insertPageIfNotExists(link.attrs['href'])返回href在pages表裡的id號

if link.attrs['href'] not in pages: # 如果href鏈接沒有保存過

# 遇到一個新頁面，加入集合並搜索裡面的詞條鏈接

newPage = link.attrs['href']

pages.add(newPage)

getLinks(newPage,recursionLevel+1) # 遞歸,次數+1

getLinks("/wiki/Kevin_Bacon", 0)

cur.close()

conn.close()

python網絡數據採集 wiki貝肯數6代碼

想要一起學習python的可以加群556982049，群裡有大量學習資料，還有大神解答問題，你們可以訂閱轉發一下

相關推薦

'Python網絡數據採集入門教程'

"在這篇文章中，我們將介紹Python提供的幾乎所有的網絡數據採集工具，你可以將本文看作是我們的《終極網絡數據採集指南》的系列文章。我們將從最基本的工具到最先進的工具進行介紹，並將涵蓋每一個的利弊。當然，我們並不能涵蓋我們討論的每個工具的所有方面，但是這篇文章應該足以讓你瞭...

Python 瀏覽器 Chrome HTML 文章 JavaScript JSON CSS Apache Nginx 操作系統 Reddit OS X 2019-09-19

'Python代碼實操：詳解數據清洗'

"導讀：此前的文章《一文看懂數據清洗：缺失值、異常值和重複值的處理》中，我們介紹了數據清洗的過程和方法，本文給出各步驟的詳細代碼，方便你動手操作。作者：宋天龍如需轉載請聯繫華章科技本文示例中，主要用了幾個知識點：通過 pd.DataFrame 新建數據框。通過 df.il...

Python 2019-08-17

Python網絡爬蟲的三種數據解析方式

一.正解解析常用正則表達式回顧：單字符： . : 除換行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一個字符 \d ：數字 [0-9] \...

網絡爬蟲 Python HTML Linux Chrome Windows XML 瀏覽器 Vi 煎蛋網 Google 2019-06-21

分享6個高效萬用Python代碼

其實，python很容易掌握，我們通常需要養成記錄的習慣，好的代碼要記錄，學會總結，很快就融會貫通！以下是行家分享的6個高效萬用代碼，收藏好，不謝！1.簡...

Python 數據結構設計 2019-05-28

網絡爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python代碼）

導讀：本文主要分為兩個部分：一部分是網絡爬蟲的概述，幫助大家詳細瞭解網絡爬蟲；另一部分是HTTP請求的Python實現，幫助大家瞭解Python中實現HT...

網絡爬蟲 Python 搜索引擎技術腳本語言數據庫蜘蛛算法雅虎 Google DNS 2019-04-28

手把手教你用Python網絡爬蟲爬網頁（附代碼）

導讀：本文主要分為兩個部分：一部分是網絡爬蟲的概述，幫助大家詳細瞭解網絡爬蟲；另一部分是HTTP請求的Python實現，幫助大家瞭解Python中實現HT...

網絡爬蟲 Python 搜索引擎腳本語言技術算法數據庫 DNS 蜘蛛雅虎 2019-04-27

8個數據清洗Python代碼，複製可用，最長11行 | 資源

前段時間大數據工程師Kin Lim Lee在Medium上發表了一篇文章，介紹了8個用於數據清洗的Python代碼。數據清洗，是進行數據分析和使用數據訓練...

Python Medium 機器學習工程師大數據程序員文章 2019-04-09

數據科學家必備：從零開始用 Python 構建循環神經網絡（附代碼）

作者：Faizan Shaikh翻譯：李文婧校對：張一豪本文約4300字，建議閱讀10+分鐘。本文帶你快速瀏覽典型NN模型核心部分，並教你構建RNN解決相...

人工智能 Python 技術算法軟件深度學習集成開發環境文章設計語音識別技術讀書機器學習編程語言筆記本電腦歷史 2019-04-07

100行Python代碼理解深度學習關鍵概念從頭構建惡性腫瘤檢測網絡

摘要： 100行Python代碼理解深度學習關鍵概念！在構建乳腺癌預測神經網絡過程中，我們主要分為3大部分：1.用Python從零開始創建一個神經網絡，並...

人工智能 Python 深度學習算法腫瘤癌症乳腺癌宇宙讀書數學吳恩達威斯康星州 2019-04-05

這 6 段Python代碼，成就瞭如今的深度學習

從代碼中追溯深度學習的歷史深度學習發展到如今的地位，離不開下面這 6 段代碼。本文介紹了這些代碼的創作者及其完成這些突破性成就的故事背景。每個故事都有簡單...

編程語言 Python 機器學習人工智能 Google 2018-11-30

6步驟帶你瞭解樸素貝葉斯分類器（含Python和R語言代碼）

本文最初由Sunil Ray發表於2015年9月13日，作者於2017年9月進行了更新。假設你正在處理一個分類問題，你已經形成了一些假設，建立了一套特徵並...

Python 機器學習編程語言 R語言機器人網JQRcom 2017-10-14

超簡單Python網絡爬蟲入門學習，十行代碼獲取最新新聞信息

其實Python是一門很簡單的語言，是所有編程語言裡面最容易學，語法最簡單的。簡單幾行代碼就達到了想要的效果。當然這只是入門級操作。學深入的話還有很多框架...

編程語言 Python 網絡爬蟲人工智能 Python樂園 2017-10-07

淺談Python數據採集Selenium、PantomJS

一直以來我覺得用在運維的Selenium、PantomJS是一個重器，不到萬不得已的時候不要祭出這個大殺器，但是涉及到JavaScript及Ajax渲染的...

編程語言 Python HTML JavaScript Python熱愛者 2017-09-29

python網絡爬蟲之：IP代理地址切換，完美越獄代碼

上一篇咱們已經獲取到了很多免費的IP代理地址，但是我們在去爬某個網站數據時，經常碰到網站有反扒設置，其中就是限制某個IP頻繁登錄，這時候，我們就需要利用代...

編程語言網絡爬蟲 Python 科技 2017-05-31

Python網絡爬蟲數據解析方式總結與比較（供高手討論）

1.前言大數據時代，數據的來源成員眾多公司和研究者的心頭疼，每家公司都說是自己的數據，都不會承認自己建設有網絡爬蟲，而實際上，你懂得。一般網絡爬蟲爬取數據...

編程語言 Python 網絡爬蟲 HTML 2017-05-27

Python 網絡爬蟲數據採集

第1節準備工具【怪獸IT學院】知識結構/路線圖/環境工具準備(3月6日 20:30-21:15)第2節網站與網頁【怪獸IT學院】網站/網頁前端技術概述(3月8日 20:30-21:30)【怪獸IT學院】站點結構處理(5分鐘)【怪獸IT學院】HTML定義網頁結構(26分鐘)【...

NoSQL Python 網絡爬蟲編程語言 2017-05-20

一名合格的數據分析師分享Python網絡爬蟲二三事（上）

一前言作為一名合格的數據分析師，其完整的技術知識體系必須貫穿數據獲取、數據存儲、數據提取、數據分析、數據挖掘、數據可視化等各大部分。在此作為初出茅廬的數...

編程語言網絡爬蟲 Python HTML 2017-05-13

Python網絡數據採集-抓取JavaScript生成的頁面

每日干貨好文分享丨請點擊+關注感謝關注Python愛好者社區公眾號，在這裡，我們會每天向您推送Python相關的文章實戰乾貨。來吧，一起Python。對商...

編程語言 Python JavaScript Linux 2017-04-20

好書推薦：Python網絡數據採集（附代碼）

關注天善智能↑，走好數據之路歡迎關注天善智能微信公眾號，我們是專注於商業智能BI，大數據，數據分析領域的垂直社區。對商業智能BI、大數據分析挖掘、機器學習...

編程語言移動互聯網 Word 大數據 2017-04-19

Python網絡數據採集——第4-6章使用API、存儲數據

每日干貨好文分享丨請點擊+關注感謝關注Python愛好者社區公眾號，在這裡，我們會每天向您推送Python相關的文章實戰乾貨。來吧，一起Python。對商...

編程語言 MySQL Word 腳本語言 2017-04-16

推薦中...