神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以看到,返回的列表的每個元素都是元組類型,我們用對應的索引依次取出即可。

所以,如果只是獲取第一個內容,可以用 search() 方法,當需要提取多個內容時,就可以用 findall() 方法。

6. sub()

正則表達式除了提取信息,我們有時候還需要藉助於它來修改文本,比如我們想要把一串文本中的所有數字都去掉,如果我們只用字符串的 replace() 方法那就太繁瑣了,在這裡我們就可以藉助於 sub() 方法。

我們用一個實例來感受一下:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以看到,返回的列表的每個元素都是元組類型,我們用對應的索引依次取出即可。

所以,如果只是獲取第一個內容,可以用 search() 方法,當需要提取多個內容時,就可以用 findall() 方法。

6. sub()

正則表達式除了提取信息,我們有時候還需要藉助於它來修改文本,比如我們想要把一串文本中的所有數字都去掉,如果我們只用字符串的 replace() 方法那就太繁瑣了,在這裡我們就可以藉助於 sub() 方法。

我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以看到,返回的列表的每個元素都是元組類型,我們用對應的索引依次取出即可。

所以,如果只是獲取第一個內容,可以用 search() 方法,當需要提取多個內容時,就可以用 findall() 方法。

6. sub()

正則表達式除了提取信息,我們有時候還需要藉助於它來修改文本,比如我們想要把一串文本中的所有數字都去掉,如果我們只用字符串的 replace() 方法那就太繁瑣了,在這裡我們就可以藉助於 sub() 方法。

我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以看到,返回的列表的每個元素都是元組類型,我們用對應的索引依次取出即可。

所以,如果只是獲取第一個內容,可以用 search() 方法,當需要提取多個內容時,就可以用 findall() 方法。

6. sub()

正則表達式除了提取信息,我們有時候還需要藉助於它來修改文本,比如我們想要把一串文本中的所有數字都去掉,如果我們只用字符串的 replace() 方法那就太繁瑣了,在這裡我們就可以藉助於 sub() 方法。

我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以到 a 節點在經過 sub() 方法處理後都沒有了,然後再 findall() 直接提取即可。所以在適當的時候我們可以藉助於 sub() 方法做一些相應處理可以事半功倍

本節我們看一下正則表達式的相關用法,正則表達式是處理字符串的強大的工具,它有自己特定的語法結構,有了它,實現字符串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說,有了它,我們從 HTML 裡面提取我們想要的信息就非常方便了。小編推薦大家加一下這個群:330637182 這個群裡好幾千人了!大家遇到啥問題都會在裡面交流!而且免費分享零基礎入門料資料web開發 爬蟲資料一整套!是個非常好的學習交流地方!也有程序員大神給大家熱心解答各種問題!很快滿員了。欲進從速哦!各種PDF等

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

我們在網頁中選擇匹配 Email 地址,就可以看到在下方出現了文本中的 Email。如果我們選擇了匹配網址 URL,就可以看到在下方出現了文本中的 URL。是不是非常神奇?

其實,在這裡就是用了正則表達式匹配,也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字符串,然後是一個 @ 符號,然後就是某個域名,這是有特定的組成格式的。另外對於 URL,開頭是協議類型,然後是冒號加雙斜線,然後是域名加路徑。

對於 URL 來說,我們就可以用下面的正則表達式匹配:

[a-zA-z]+://[^\s]*

如果我們用這個正則表達式去匹配一個字符串,如果這個字符串中包含類似 URL 的文本,那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團,其實不然,這裡面都是有特定的語法規則的。比如 a-z 代表匹配任意的小寫字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多個,這一長串的正則表達式就是這麼多匹配規則的組合,最後實現特定的匹配功能。

寫好正則表達式後,我們就可以拿它去一個長字符串裡匹配查找了,不論這個字符串裡面有什麼,只要符合我們寫的規則,統統可以找出來。那麼對於網頁來說,如果我們想找出網頁源代碼裡有多少 URL,就可以用匹配URL的正則表達式去匹配,就可以得到源碼中的 URL 了。

在上面我們說了幾個匹配規則,那麼正則表達式的規則到底有多少?那麼在這裡把常用的匹配規則總結一下:

模式描述
\w匹配字母數字及下劃線
\W匹配非字母數字及下劃線
\s匹配任意空白字符,等價於 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意數字,等價於 [0-9]
\D匹配任意非數字
\A匹配字符串開始
\Z匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串
\z匹配字符串結束
\G匹配最後匹配完成的位置
\n匹配一個換行符
\t匹配一個製表符
^匹配字符串的開頭
$匹配字符串的末尾
.匹配任意字符,除了換行符,當 re.DOTALL 標記被指定時,則可以匹配包括換行符的任意字符
[...]用來表示一組字符,單獨列出:[amk] 匹配 'a','m' 或 'k'
[^...]不在 [] 中的字符:abc 匹配除了 a,b,c 之外的字符。
*匹配 0 個或多個的表達式。
+匹配 1 個或多個的表達式。
?匹配 0 個或 1 個由前面的正則表達式定義的片段,非貪婪方式
{n}精確匹配 n 個前面表達式。
{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式
`ab`匹配 a 或 b
( )匹配括號內的表達式,也表示一個組

可能看完了之後就有點暈暈的了把,不用擔心,下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

用它來匹配這個長字符串。開頭的 ^ 是匹配字符串的開頭,也就是以 Hello 開頭,然後 \s 匹配空白字符,用來匹配目標字符串的空格,\d 匹配數字,3 個 \d 匹配 123,然後再寫 1 個 \s 匹配空格,後面還有 4567,我們其實可以依然用 4 個 \d 來匹配,但是這麼寫起來比較繁瑣,所以在後面可以跟 {4} 代表匹配前面的規則 4 次,也就是匹配 4 個數字,這樣也可以完成匹配,然後後面再緊接 1 個空白字符,然後 \w{10} 匹配 10 個字母及下劃線,正則表達式到此為止就結束了,我們注意到其實並沒有把目標字符串匹配完,不過這樣依然可以進行匹配,只不過匹配結果短一點而已。

我們調用 match() 方法,第一個參數傳入了正則表達式,第二個參數傳入了要匹配的字符串。

打印輸出一下結果,可以看到結果是 SRE_Match 對象,證明成功匹配,它有兩個方法,group() 方法可以輸出匹配到的內容,結果是 Hello 123 4567 World_This,這恰好是我們正則表達式規則所匹配的內容,span() 方法可以輸出匹配的範圍,結果是 (0, 25),這個就是匹配到的結果字符串在原字符串中的位置範圍。

通過上面的例子我們可以基本瞭解怎樣在 Python 中怎樣使用正則表達式來匹配一段文字

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

依然是前面的字符串,在這裡我們想匹配這個字符串並且把其中的 1234567 提取出來,在這裡我們將數字部分的正則表達式用 () 括起來,然後接下來調用了group(1) 獲取匹配結果。

運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們將中間的部分直接省略,全部用 .* 來代替,最後加一個結尾字符串就好了,運行結果如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在這裡我們依然是想獲取中間的數字,所以中間我們依然寫的是 (\d+),數字兩側由於內容比較雜亂,所以兩側我們想省略來寫,都寫 .*,最後組成 ^He.*(\d+).*Demo$,看樣子並沒有什麼問題,我們看下運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這下我們就可以成功獲取 1234567 了。原因可想而知,貪婪匹配是儘可能匹配多的字符,非貪婪匹配就是儘可能匹配少的字符,.*? 之後是 \d+ 用來匹配數字,當 .*? 匹配到 Hello 後面的空白字符的時候,再往後的字符就是數字了,而 \d+ 恰好可以匹配,那麼這裡 .*? 就不再進行匹配,交給 \d+ 去匹配後面的數字。所以這樣,.*? 匹配了儘可能少的字符,\d+ 的結果就是 1234567 了。

所以說,在做匹配的時候,字符串中間我們可以儘量使用非貪婪匹配來匹配,也就是用 .*? 來代替 .*,以免出現匹配結果缺失的情況。

但這裡注意,如果匹配的結果在字符串結尾,.*? 就有可能匹配不到任何內容了,因為它會匹配儘可能少的字符,例如:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 .*? 沒有匹配到任何結果,而 .* 則儘量匹配多的內容,成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理,對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行直接報錯,也就是說正則表達式沒有匹配到這個字符串,返回結果為 None,而我們又調用了 group() 方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢?是因為 . 匹配的是除換行符之外的任意字符,當遇到換行符時,.*? 就不能匹配了,所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符 re.S,即可修正這個錯誤。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

在網頁匹配中較為常用的為 re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式,如 . 匹配除換行符以外的任意字符,但是如果目標字符串裡面它就包含 . 我們改怎麼匹配?

那麼這裡就需要用到轉義匹配了,我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

4. search()

我們在前面提到過 match() 方法是從字符串的開頭開始匹配,一旦開頭不匹配,那麼整個匹配就失敗了。

我們看下面的例子:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

這樣就得到了匹配結果。

所以說,為了匹配方便,我們可以儘量使用 search() 方法。

下面我們再用幾個實例來感受一下 search() 方法的用法。

首先這裡有一段待匹配的 HTML 文本,我們接下來寫幾個正則表達式實例來實現相應信息的提取。

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

觀察到 ul 節點裡面有許多 li 節點,其中 li 節點有的包含 a 節點,有的不包含 a 節點,a 節點還有一些相應的屬性,超鏈接和歌手名。

首先我們嘗試提取 class 為 active的 li 節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個 li 節點下的 a 節點的 singer 屬性和文本。

所以正則表達式可以以 li 開頭,然後接下來尋找一個標誌符 active,中間的部分可以用 .*? 來匹配,然後接下來我們要提取 singer 這個屬性值,所以還需要寫入singer="(.*?)" ,我們需要提取的部分用小括號括起來,以便於用 group() 方法提取出來,它的兩側邊界是雙引號,然後接下來還需要匹配 a 節點的文本,那麼它的左邊界是 >,右邊界是 \</a>,所以我們指定一下左右邊界,然後目標內容依然用 (.*?) 來匹配,所以最後的正則表達式就變成了:

<li.*?active.*?singer="(.*?)">(.*?)</a>

然後我們再調用 search() 方法,它便會搜索整個 HTML 文本,找到符合正則表達式的第一個內容返回。另外由於代碼有換行,所以這裡第三個參數需要傳入 re.S。

所以整個匹配代碼如下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

因為我們把 active 標籤去掉之後,從字符串開頭開始搜索,符合條件的節點就變成了第二個 li 節點,後面的就不再進行匹配,所以運行結果自然就變成了第二個 li 節點中的內容。

注意在上面兩次匹配中,search() 方法的第三個參數我們都加了 re.S,使得 .*? 可以匹配換行,所以含有換行的 li 節點被匹配到了,如果我們將其去掉,結果會是什麼?

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以看到,返回的列表的每個元素都是元組類型,我們用對應的索引依次取出即可。

所以,如果只是獲取第一個內容,可以用 search() 方法,當需要提取多個內容時,就可以用 findall() 方法。

6. sub()

正則表達式除了提取信息,我們有時候還需要藉助於它來修改文本,比如我們想要把一串文本中的所有數字都去掉,如果我們只用字符串的 replace() 方法那就太繁瑣了,在這裡我們就可以藉助於 sub() 方法。

我們用一個實例來感受一下:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

運行結果:

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

可以到 a 節點在經過 sub() 方法處理後都沒有了,然後再 findall() 直接提取即可。所以在適當的時候我們可以藉助於 sub() 方法做一些相應處理可以事半功倍

神級程序員花了半個月整理的正則表達式!教科書一樣的教學方法!

另外 compile() 還可以傳入修飾符,例如 re.S 等修飾符,這樣在 search()、findall() 等方法中就不需要額外傳了。所以 compile() 方法可以說是給正則表達式做了一層封裝,以便於我們更好地複用。

8. 結語

到此為止,正則表達式的基本用法就介紹完畢了,後面我們會有實戰來講解正則表達式的使用。


相關推薦

推薦中...