當前位置：首頁 > 编程语言 > python >内容正文

python

Python正则表达式指南上半部

發布時間：2025/3/8 python 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python正则表达式指南上半部小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文介紹了Python對于正則表達式的支持，包括正則表達式基礎以及Python正則表達式標準庫的完整介紹及使用示例。本文的內容不包括如何編寫高效的正則表達式、如何優化正則表達式，這些主題請查看其他教程。

　　注意：本文基于Python2.4完成；如果看到不明白的詞匯請記得百度谷歌或維基，whatever。

　1. 正則表達式基礎

　　1.1. 簡單介紹

　　正則表達式并不是Python的一部分。正則表達式是用于處理字符串的強大工具，擁有自己獨特的語法以及一個獨立的處理引擎，效率上可能不如str自帶的方法，但功能十分強大。得益于這一點，在提供了正則表達式的語言里，正則表達式的語法都是一樣的，區別只在于不同的編程語言實現支持的語法數量不同；但不用擔心，不被支持的語法通常是不常用的部分。如果已經在其他語言里使用過正則表達式，只需要簡單看一看就可以上手了。

下圖展示了使用正則表達式進行匹配的流程：

　　正則表達式的大致匹配過程是：依次拿出表達式和文本中的字符比較，如果每一個字符都能匹配，則匹配成功；一旦有匹配不成功的字符則匹配失敗。如果表達式中有量詞或邊界，這個過程會稍微有一些不同，但也是很好理解的，看下圖中的示例以及自己多使用幾次就能明白。

下圖列出了Python支持的正則表達式元字符和語法：

　　1.2. 數量詞的貪婪模式與非貪婪模式

　　正則表達式通常用于在文本中查找匹配的字符串。Python里數量詞默認是貪婪的（在少數語言里也可能是默認非貪婪），總是嘗試匹配盡可能多的字符；非貪婪的則相反，總是嘗試匹配盡可能少的字符。例如：正則表達式”ab*”如果用于查找”abbbc”，將找到”abbb”。而如果使用非貪婪的數量詞”ab*?”，將找到”a”。

　　1.3. 反斜杠的困擾

　　與大多數編程語言相同，正則表達式里使用”\”作為轉義字符，這就可能造成反斜杠困擾。假如你需要匹配文本中的字符”\”，那么使用編程語言表示的正則表達式里將需要4個反斜杠”\\\\”：前兩個和后兩個分別用于在編程語言里轉義成反斜杠，轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠。Python里的原生字符串很好地解決了這個問題，這個例子中的正則表達式可以使用r”\\”表示。同樣，匹配一個數字的”\\d”可以寫成r”\d”。有了原生字符串，你再也不用擔心是不是漏寫了反斜杠，寫出來的表達式也更直觀。

　　1.4. 匹配模式

　　正則表達式提供了一些可用的匹配模式，比如忽略大小寫、多行匹配等，這部分內容將在Pattern類的工廠方法re.compile(pattern[, flags])中一起介紹。

　2. re模塊

　　2.1. 開始使用re

　　Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先將正則表達式的字符串形式編譯為Pattern實例，然后使用Pattern實例處理文本并獲得匹配結果（一個Match實例），最后使用Match實例獲得信息，進行其他的操作。

123456789101112131415

# encoding: UTF-8import?re# 將正則表達式編譯成Pattern對象pattern =?re.compile(r'hello')# 使用Pattern匹配文本，獲得匹配結果，無法匹配時將返回Nonematch =?pattern.match('hello world!')if?match:????# 使用Match獲得分組信息????print?match.group()### 輸出 #### hello

　　re.compile(strPattern[, flag]):

　　這個方法是Pattern類的工廠方法，用于將字符串形式的正則表達式編譯為Pattern對象。第二個參數flag是匹配模式，取值可以使用按位或運算符’|'表示同時生效，比如re.I | re.M。另外，你也可以在regex字符串中指定模式，比如re.compile(‘pattern’, re.I | re.M)與re.compile(‘(?im)pattern’)是等價的。

　　可選值有：

re.I(re.IGNORECASE): 忽略大小寫（括號內是完整寫法，下同）
M(MULTILINE): 多行模式，改變’^'和’$'的行為（參見上圖）
S(DOTALL): 點任意匹配模式，改變’.'的行為
L(LOCALE): 使預定字符類 \w \W \b \B \s \S 取決于當前區域設定
U(UNICODE): 使預定字符類 \w \W \b \B \s \S \d \D 取決于unicode定義的字符屬性
X(VERBOSE): 詳細模式。這個模式下正則表達式可以是多行，忽略空白字符，并可以加入注釋。以下兩個正則表達式是等價的：

1234	a =?re.compile(r"""\d +? # the integral part???????????????????\.??? # the decimal point???????????????????\d ? # some fractional digits""", re.X)b =?re.compile(r"\d+\.\d")

轉載于:https://blog.51cto.com/1095221645/1607789

總結

以上是生活随笔為你收集整理的Python正则表达式指南上半部的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：同时对view延时执行两个动画时候的现象
下一篇： head first python（第三

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

Python正则表达式指南上半部

1. 正則表達式基礎

1.1. 簡單介紹

1.2. 數量詞的貪婪模式與非貪婪模式

1.3. 反斜杠的困擾

1.4. 匹配模式

2. re模塊

2.1. 開始使用re

總結

　1. 正則表達式基礎

　　1.1. 簡單介紹

　　1.2. 數量詞的貪婪模式與非貪婪模式

　　1.3. 反斜杠的困擾

　　1.4. 匹配模式

　2. re模塊

　　2.1. 開始使用re