十分鐘學會正則表達式

PHP Java Python 算法潘旭網 2019-04-04

正則表達式用處挺廣的，主要用於處理字符串。

正則引擎

想要在計算機語言中使用正則表達式，那麼這門計算機語言必須要利用正則引擎去實現相應的正則庫。主要的正則引擎分為以下兩類：

DFA 確定性的狀態機。不使用”回溯”，效率高，但是支持的正則表達式語法有限。
NFA 非確定性狀態機。構造簡單，使用”回溯算法”，支持大多數的正則語法，是目前使用最廣泛的正則引擎，大多數計算機語言例如Java、PHP、Ruby、Python等都是使用的NFA正則引擎。

語言實現

不同的語言對正則的實現不同，暴露出來的方法也不同，但方法的作用其實都是大同小異，這裡用PHP語言做例子。

匹配字符串

preg_match(string $pattern, string $subject[, array &$matches]) 使用很頻繁。函數返回匹配到的結果的次數。只匹配一次，參數matches只返回第一條結果。
preg_match_all(string $pattern, string $subject[, array &$matches]) 使用很頻繁。函數返回匹配到的結果的次數。參數matches只返回所有結果。

替換字符串或數組

preg_replace($pattern, $replacement, $subject) 返回匹配過濾後的字符串或者數組。
preg_filter($pattern, $replacement, $subject)返回匹配過濾後的字符串或者數組。

這倆函數，都可以替換字符串，在字符串替換中，倆函數用法完全一致。

這倆函數，不僅可以替換字符串，還可以替換數組！在替換數組的時候，pre_filter會過濾掉沒有匹配到的內容，而pre_replace不會，這就是他倆的唯一區別。

替換數組

preg_grep(string $pattern, array $input[, int flags = 0]) 返回匹配模式的數組條目。閹割版本的preg_filter

正則運算符轉義

對一個字符串中的正則表達式的運算符：”. \ + * ? [ ] ^ $ ( ) { } = ! < > | : -“進行轉義，轉義成非正則表達式的運算符，否則正則表達式會認為其為運算符。

preg_quote(string $str[, string $delimiter = null ]) 轉義正則表達式字符串。返回轉義後的字符串。

正則表達式語法

你可以把正則表達式當做一門簡單的語言來看，但是它的語法顯然比一般的計算機語言要簡單一些。

界定符

指定正則表達式的開始和結束，可以當成是計算機語言中的大括號{和}。一般有三種表現方式：

斜槓。例如/[0-9]/。這是最常用的方式，在PHP中，推薦使用這種方式。
井號。例如#[0-9]。
大括號。例如{[0-9]}。在正則表達式中，大括號還有其他作用，所以這種方式不推薦使用。

原子

正則表達式中最小的匹配單位，其實就是字符串中的字符。主要分為兩大類：

可見原子:

肉眼能夠看見的字符。

標點符號。例如：”_ ? . ;,“等等
英文字母數字。例如：”a-z,A-Z,0-9“
漢字、日文、阿拉伯文等其他語言文字
數理化公式符號。例如：”∩ ∪ π Ω “等等
其他可見字符

由於某些字符在正則表達式中屬於特殊字符，那麼在書寫這類特殊字符的時候，應該注意要加上反斜槓\，例如如果匹配^直接寫/^/肯定不行，如果加上反斜槓，就可以了。\^

不可見原子:

肉眼看不到的。

空格。
換行符\n
回車符\r
製表符\t。其實就是按一下鍵盤tab鍵出來的
其他不可見字符

元字符

定義原子的篩選方式，隊員原子進行歸類，簡化正則表達式的書寫。

| 匹配兩個或者多個分支選擇。和計算機語言中的含義是一樣的:或者
[] 匹配方括號中的任意一個原子。
[^] 配配除方括號之外的任意字符串。
. 匹配除\n之外的任何單個字符。要匹配包括\n在內的任何字符，請使用象[.\n]的模式。
\d 十進制數字，等同於[0-9]
\D 匹配任意一個非十進制的數字，等同於[^0-9]
\s 匹配任意一個不可見原子。等同於[\f\n\r\t\v]
\S 匹配一個可見原子。等同於[^\f\n\r\t\v]
\w 匹配任意數字、字母或下劃線。既[0-9a-zA-Z_]
\W 匹配任意非數字、字母或下劃線。即[^0-9a-zA-Z_]

量詞

表示某一個原子連續出現的數量。

{n} 表示前面的原子恰好出現n次
{n,} 表示前面的原子最少出現n次
{n,m} 表示前面的原子最少出現n此，最多出現m次
* 匹配0次、1次、或者多次。等同於{0,}
+ 一次或者多次。等同於{1,}
? 0次數或者1次。等同於{0,1}

邊界控制

^ 匹配字符串開始的位置。即”必須以……為開頭”
$ 匹配字符串結束的位置。即”必須以……為結尾”

模式單元

將模式單元中的括號及其正則表達式當做是一個原子來看待。

() 匹配其中的整體為一個原子。

修正模式

給正則表達式的匹配過程添加一種匹配模式

U 加U是懶惰匹配，不加U是默認的貪婪匹配。
i 忽略英文字母大小寫。
x 忽略空白。（包括空格和按tab鍵輸出的製表符）
s 讓元字符.匹配包括換行符在內的所有字符。
e preg_replace()在替換字符串中對逆向引用作正常的替換。簡單的說，就是PHP會把replace的結果當做PHP代碼。（替換字符串要符合php的語法規範）
例如：echo preg_replace('/(\d+),(\d+)/e', '$1+$2', '2,3');會輸出5。

書寫方式為：

$pattern = '/hello World/U'

$pattern = '/hello World/i'

$pattern = '/hello World/Ui'//可以任意組合

相關推薦

'不要小看小小的 emoji 表情'

"前言好久沒更新了，最近事比較多，或許下個月就會恢復到正常的發文頻次。這篇文章得從一個 emoji 表情開始，我之前開源的一個 IM 項目中有朋友提到希望可以支持 emoji 表情傳輸。https://github.com/crossoverJie/cim/issues/1...

emoji 數據庫 GitHub MySQL Java 電腦英語文章 2019-09-15

'Python學習乾貨史上最全的 Python 爬蟲工具列表大全'

"這個列表包含與網頁抓取和數據處理的Python庫。網絡通用urllib -網絡庫(stdlib)。requests -網絡庫。grab – 網絡庫（基於pycurl）。pycurl – 網絡庫（綁定libcurl）。urllib3 – Python HTTP庫，安全連接池...

Python 網絡爬蟲 HTML Scrapy XML 瀏覽器 CSS XHTML jQuery C語言 JSON Excel 可視化技術 2019-09-15

'深入理解Python3中with語句和上下文管理器！不費吹灰之力學會'

"提示：前面的內容較為基礎，重點知識在後半段。with 這個關鍵字，對於每一學習Python的人，都不會陌生。操作文本對象的時候，幾乎所有的人都會讓我們要用 with open ，這就是一個上下文管理的例子。你一定已經相當熟悉了，我就不再廢話了。with open('tes...

Python 數據庫腳本語言虛擬機網絡爬蟲機器學習工程師 OpenStack 2019-09-14

'python小課堂23 - 正則表達式(一)'

"前言今天來介紹一下Python的正則表達式。先來看下定義，何為正則表達式？正則表達式是一個特殊的字符序列，一個字符串是否與我們給定的這個字符序列相匹配。正則最重要的功能就是處理字符串，例如檢索你在某一段字符串中的特定單詞，或者將原來某個位置的特定字符換成你想要的字符。而對...

Python PHP Java 程序員網絡爬蟲 2019-09-12

'寫python爬蟲，不會正則怎麼行呢？另贈學習資料'

"導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模塊不做過多描述，只會對一些特殊地方做提示。很多人覺得正則很難，在我看來，這些人一定是沒有用心。其實正則很簡單，根據二八原則，我們只需要懂 20% 的內容就可以...

Python 網絡爬蟲 Java 百度 2019-09-12

'用Python處理了數據還要導入Excel做圖表？直接Python做漂亮圖表'

"請關注本號，後續會有更多相關教程。轉發本文並私信我"python"，即可獲得按水平領域分類好的Python資料系列文章"替代Excel Vba"系列（一）：用Python的pandas快速彙總"Python替代Excel Vba"系列（二）：pandas分組統計與操作Ex...

Python Excel 腳本語言可視化技術 2019-09-10

'Python19個經典常用語法，學會省好多事兒，文末附視頻教程'

"Python簡單易學，但又博大精深。許多人號稱精通Python，卻不會寫Pythonic的代碼，對很多常用包的使用也並不熟悉。學海無涯，我們先來了解一些Python中最基本的內容。轉發此文+關注並私信小編 “ 學習 ”，即可免費獲取Python乾貨。Python的特點...

Python Mac電腦 Windows 鏡音雙子 Linux 英語 2019-09-10

'0基礎學Python從哪入手？3個月快速學會Python的祕訣是什麼？'

"如果已經學習了一點其它編程語言，該怎麼快速瞭解和學習Python呢？如何用3個月快速學會Python？零基礎，我想學一門數據分析的語言，不敢說是謀生用，只是想掌握一種工具。沒事爬點有用的數據資料什麼的。1題主如果想要利用python爬取數據資料，本人目前也正在學習Pyth...

Python 網絡爬蟲 Linux 數據庫 Scrapy 操作系統技術慕課網瀏覽器 HTML 虛擬機編程語言電腦面向對象程序編程坦克大戰 CSS 2019-09-08

'很強大！這20個正則表達式，能讓你少寫1000多行代碼，快來mark'

"正則表達式正則表達式，又稱規則表達式。(英語:Regular Expression，在代碼中常簡寫為regex、regexp或RE)，計算機科學的一個概念。一個十分古老而又強大的文本處理工具，僅僅用一段非常簡短的表達式語句，便能夠快速實現一個非常複雜的業務邏輯。正則表達式...

HTML Java Word CSS EditPlus Windows 六貫棋 2019-09-08

'用Excel做數據分析，簡單粗暴超實用，十分鐘就學會'

"最近有個朋友找到我，說是想要轉行做數據分析師，但是卻不知道在數據分析的求職環境怎麼樣？而且自己什麼工具都不會，python、R語言什麼的也都是淺嘗輒止，擔心自己一轉行就失業。這也是很多想要轉行數據分析的人的困惑，其實數據分析入門並不難，只要掌握了Excel數據分析的基礎，...

Excel 人生第一份工作分析師 Python R語言百度 2019-09-08

'表演式加班：白天花時間學習，晚上再發力工作'

"現在996盛行，相信很多人都有加班的經歷吧。搞互聯網的，在現在這種環境下相信絕大部分每天都在加班吧。但是，真的每天都有這麼多忙不完的工作嗎？筆者表示是不相信的。相信更多時候，都是看著周圍的人不下班，然後自己也不敢先走吧。今日，在某職業論壇看到一位阿里程序員吐槽：身邊一群奮...

跳槽那些事兒 MySQL 程序員 Java 工程師 2019-09-07

'怎麼用最簡單的方法，做出最炫酷的數據可視化圖表？'

"如果要問數據怎樣做才能顯得最裝逼，那麼答案一定只有一個：“數據可視化”！看上去也很炫酷對不對，其實上面的可視化圖表其實並不複雜，很多人推薦的Python、R語言、Tableau等專業數據分析工具幾乎都能很輕鬆的實現。但是！這只是對於專業的數據人或者精通這些專業工具的人來說...

可視化技術 Excel Python 玫瑰瀏覽器 R語言雷達地理 2019-09-07

'十分鐘搭建不了，你砍我，使用SpringBoot+Dubbo搭建微服務筆記'

"一、Dubbo介紹引用官方的一段介紹Apache Dubbo (incubating) |ˈdʌbəʊ| is a high-performance, java based RPC framework open-sourced by Alibaba. As in many...

Apache Java Tomcat WebApp 可視化技術瀏覽器 Redis Windows 2019-09-07

'python的原理你瞭解多少呢？學會原理學習python，So easy'

"前言簡單來說互聯網是由一個個站點和網絡設備組成的大網，我們通過瀏覽器訪問站點，站點把HTML、JS、CSS代碼返回給瀏覽器，這些代碼經過瀏覽器解析、渲染，將豐富多彩的網頁呈現我們眼前；一、爬蟲是什麼？如果我們把互聯網比作一張大的蜘蛛網，數據便是存放於蜘蛛網的各個節點，而爬...

Python 瀏覽器網絡爬蟲 JSON Redis 數據庫 MySQL HTML CSS 西部數據技術 2019-09-04

'正則表達式真的很強大，可惜你不會寫'

"專注於Java領域優質技術，歡迎關注本文旨在用最通俗的語言講述最枯燥的基本知識文章提綱：元字符重複限定符分組轉義條件或區間正則表達式在幾乎所有語言中都可以使用，無論是前端的JavaScript、還是後端的Java、c#。他們都提供相應的接口/函數支持正則表達式。但很神奇的...

Java 騰訊QQ 中國聯通 JavaScript 大學技術 2019-09-02

'還在為學不會Java而找理由？這篇文章裡的內容一定讓你學會java，'

"老生常談的一些問題，小編再和你們談一談！現在的java在編程界基礎已經根深蒂固了，隨之帶來的影響就是有大量的崗位，大量的工作方向，雖然現在很多的新興語言勢頭都非常的猛烈，但是這並不影響java依然體量最大的編程語言，而且絲毫也看不出這門語言有任何衰減的趨勢，依然有大量的從...

Java MySQL 數據庫人生第一份工作 Gradle 文章設計模式編程語言騰訊雲計算 Eclipse Linux JSP 騰訊工程師 2019-08-31

'Python中的正則表達式'

"什麼是正則表達式世界上分為兩種人，一種是懂正則表達式的，一種是不懂正則表達式的按照一定的規則，從某個字符串中匹配出想要的數據，這個規則就是正則表達式正則表達式常用的匹配規則匹配某個字符串text = 'hello'ret = re.match('he', text)pri...

Python 2019-08-29

'大牛自學分享丨自學編程應該從何處開始，怎麼樣自學會比較好？'

"自學編程，首先我覺得確實是一件不太容易的事情，你要有足夠的定力，其次就是堅持，堅持看視頻，堅持練習寫代碼。有人說，學好編程，要什麼多少小時理論，多少行代碼理論，我覺得這些都太片面了。每個人的自學能力都是不一樣的，這跟你學什麼沒有關係，關鍵還是看你的個人能力。特別是自學。其...

C語言慕課網程序員 Python 讀書編程語言技術 Bilibili CSDN 知乎軟件中國中央電視臺不完美媽媽 2019-08-28

'十分鐘完成 spring 核心概念掃盲'

"（來自51CTO博客作者美碼師的原創作品，如需轉載，請註明出處，否則將追究法律責任）一、背景springframework 從 2.5 版本發展至今，期間已經發生了非常多的修正及優化。最初認為 spring 框架是一個非常輕量級的東西，輕量到你幾乎認識不到必須使用它的理由...

XML Java Eclipse 2019-08-28

'Python學習教程：用函數還是用複雜的表達式，值得優秀的你思考'

"今天這期的Python學習教程，值得每一個優秀的你思考，你用函數還是寧願用複雜的表達式？要不要使用複雜表達式Perl語言的原作者Larry Wall曾經說過，偉大的程序員都有三個優點：懶惰、暴躁和自負。乍一看這三個詞語沒有一個是褒義詞，但在程序員的世界裡，這三個詞有不同的...

Python 程序員 C語言 Perl Java Guido 人生第一份工作 IFA 國風新潮 2019-08-28

推薦中...