當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

Python中正则表达式讲解

發(fā)布時(shí)間：2023/12/13 python 69 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python中正则表达式讲解小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

正則表達(dá)式是匹配字符串的強(qiáng)大武器，它的核心思想是給字符串定義規(guī)則，凡是符合規(guī)則的字符串就是匹配了，否則就是不合法的。在介紹Python的用法之前，我們先講解一下正則表達(dá)式的規(guī)則，然后再介紹在Python中如何運(yùn)用。

如果直接給出字符，那么就是精確的匹配，例如‘a(chǎn)bc’當(dāng)然是匹配’abc’了。

\d可以匹配數(shù)字(0-9)
\D和\d相反，就是說只要不是0-9，都可以匹配
\w可以匹配字母或者數(shù)字(0-9|a-z|A-Z)
\W和\w相反，就是說只要不是字母和數(shù)字，都可以匹配
\s可以匹配空格，\n,\t,\r,\f
\S和\s相反
. 可以匹配除了\n以外的任意字符

第一步先說這些內(nèi)容，Python提供re模塊，包含所有正則表達(dá)式的功能，看下面的程序演示：

#如何判斷正則表達(dá)式是否匹配，使用re.match() import re a=re.match('\d','1') b=re.match('\d','s') print(a) print(b)輸出： <_sre.SRE_Match object at 0x000000000065A510> None

這里說一下，如果match()方法匹配的話，返回一個(gè)Match對(duì)象，否則返回None
為了方便觀察程序運(yùn)行結(jié)果，我們使用if判斷來輸出結(jié)果，下面再看一個(gè)例子

import re def is_match(a):if a!=None:print('yes！')else:print('no！') a=re.match('\d','123abc') b=re.match('\d\d','123abc') c=re.match('\d\d\d','123abc') d=re.match('\d\d\d\d','123abc') is_match(a) is_match(b) is_match(c) is_match(d)輸出： yes！ yes！ yes！ no！

現(xiàn)在來講解上面的代碼，我們知道\d可以匹配一個(gè)0-9的數(shù)字，所以re.match(‘\d’,’123abc’)中的\d匹配的是字符串‘123abc’中的1，至于后面的’23abc’不用管它。一個(gè)\d我只用匹配一個(gè)數(shù)字就可以了。re.match(‘\d\d’,’123abc’)中的兩個(gè)\d分別匹配的是字符串’123abc’中的‘1’和‘2’，后面的‘3abc’不用管。re.match(‘\d\d\d\d’,’123abc’)中前3個(gè)\d分別匹配的是‘1’，‘2’，‘3’,當(dāng)?shù)?個(gè)\d去匹配‘a(chǎn)’的時(shí)候發(fā)現(xiàn)不能匹配，所以最后一個(gè)不能匹配上，輸出None。再看幾個(gè)例子體會(huì)下吧

為了減少代碼量，下面的代碼我會(huì)直接寫主要的代碼部分,輸出結(jié)果用注釋代替

a=re.match('\w','123abc') #yes b=re.match('\w','abc123') #yes c=re.match('\w','Abc123') #yes a=re.match('.','abc') #yes b=re.match('.','Abc') #yes c=re.match('.','12bc') #yes d=re.match('.','*2bc') #yes e=re.match('.','\n2bc') #no

如果我們要匹配變長(zhǎng)的字符，可以在\d,\w,\s, . 的后面使用下面的符號(hào)
* 表示任意個(gè)字符（包括0個(gè)）
+表示至少一個(gè)字符
?表示0個(gè)或1個(gè)字符
{n}表示n個(gè)字符
{n,m}表示n-m個(gè)字符

a=re.match('\d*','123') #yes # *表示任意個(gè)字符，包括0個(gè)，所以\d*可以匹配0個(gè)數(shù)字，所以match('\d*','abc')可以匹配 b=re.match('\d*','abc') #yes c=re.match('\d+','1abc') #yes # +表示至少1個(gè)字符，\d+表示至少1個(gè)數(shù)字，所以匹配不成功 d=re.match('\d+','abc') #no a=re.match('\d?','123') #yes b=re.match('\d?','abc') #yes c=re.match('\d{3}','1234') #yes #\d{3}代表3個(gè)數(shù)字，而'12'只有2個(gè)，所以不匹配 d=re.match('\d{3}','12') #no #'12abc'前3個(gè)'12a'不全是數(shù)字 e=re.match('\d{3}','12abc') #no a=re.match('\d{0,3}','abc') #yes b=re.match('\d{0,3}','12abc') #yes c=re.match('\d{0,3}','1234bc') #yes

還有更加精確的匹配，用[ ]表示范圍，例如：
[0-9]匹配1個(gè)數(shù)字,和\d一樣
[a-z]匹配1個(gè)小寫字母
[A-Z]匹配1個(gè)大寫字母
\ _匹配下劃線
[0-9a-zA-Z]可以匹配1個(gè)數(shù)字或者字母，等價(jià)于\w
[0-9a-zA-Z\ _]可以匹配1個(gè)數(shù)字或者字母或者下劃線，一般是變量的命名規(guī)則
[0-9] | [a-z]匹配1個(gè)數(shù)字或者小寫字母，使用的是 | 符號(hào)
^表示以什么開頭，例如^[0-9]就是以數(shù)字開頭
$表示以什么結(jié)尾

a1=re.match('[0-9]','123') #yes a2=re.match('[a-z]','abc') #yes a3=re.match('[A-Z]','Abc') #yes a4=re.match('[0-9a-zA-Z]','Abc') #yes b1=re.match('[0-9a-zA-Z]','12bc') #yes b2=re.match('[0-9a-zA-Z]','abc') #yes b3=re.match('[0-9a-zA-Z]','張康abc') #no b4=re.match('[0-9a-zA-Z\_]','_abc') #yes a=re.match('^[0-9a-zA-Z\_][0-9]','a1bc') #yes b=re.match('^[0-9a-zA-Z\_][a-z]','Abc') #yes c=re.match('^[0-9a-zA-Z\_][A-Z]','1Bbc') #yes d=re.match('^[0-9a-zA-Z\_][0-9]','1abc') #no e=re.match('^[0-9a-zA-Z\_]','_1bc') #yes a=re.match('^[0-9a-z]+[A-Z]$','1234A') #yes b=re.match('^[0-9a-z]+[A-Z]$','1234a') #no

正則表達(dá)式還可以用來切分字符串（切分字符串）

import re a=re.split('\s+','a b c') print(a)輸出: ['a', 'b', 'c']

關(guān)于字符串中的split()函數(shù)，不明白的請(qǐng)參考我的另一篇博文。上面的代碼的意思是以空格為切分符，把字符串分成n段，并以list的形式返回。
如果還想把逗號(hào)加進(jìn)去，讓空格和逗號(hào)都變成分隔符，看下面的代碼：

import re a=re.split('[\s\,]+','a b c ,d,f e') print(a)輸出： ['a', 'b', 'c', 'd', 'f', 'e']

正則表達(dá)式還可以用來提取子串（分組）

用( )表示的就是要提取的分組（Group），把想要提取的子串在正則表達(dá)式中用( )括起來，例如我要提取帶區(qū)號(hào)的固定電話號(hào)的每一部分，看代碼演示：

import re a=re.match('(\d{4})\-(\d{7})','0370-5163700') g0=a.group(0) g1=a.group(1) g2=a.group(2) print(g0) print(g1) print(g2)輸出： 0370-5163700 0370 5163700

\d{4}匹配的是0370，因?yàn)槲乙崛∷?#xff0c;所以用()括起來，代表一個(gè)分組
\ - 匹配的是 - ，因?yàn)檫@里 - 是特殊字符，需要轉(zhuǎn)義，就像下劃線需要轉(zhuǎn)義\ _，這里我不需要提取這個(gè) - ，所以不用加括號(hào)。
\d{7}匹配的是5163700，這是需要提取的第二個(gè)分組，所以需要括起來。
還有一點(diǎn)需要注意，無論什么時(shí)候，group(0)提取的都是原來的字符串，你要提取的分組從group(1)開始。

正則表達(dá)式的貪婪匹配

正則表達(dá)式匹配默認(rèn)是貪婪匹配，也就是匹配盡可能多的字符，看個(gè)例子吧！

import re a=re.match('^(\d+)(1*)$','12345611111') print('第一組:'+a.group(1)) print('第二組:'+a.group(2))輸出：第一組:12345611111 第二組:

按照正常的理解\d+應(yīng)該匹配123456，1*匹配11111，但是由于正則表達(dá)式是默認(rèn)貪婪匹配，\d+匹配了全部數(shù)字。怎么才能不讓它貪婪匹配呢，很簡(jiǎn)單，在后面加個(gè)問號(hào)?就可以了

import re a=re.match('^(\d+?)(1*)$','12345611111') print('第一組:'+a.group(1)) print('第二組:'+a.group(2))輸出: 第一組:123456 第二組:11111

編譯

在Python中使用正則表達(dá)式時(shí)，re模塊內(nèi)部會(huì)干兩件事情：

編譯正則表達(dá)式，如果正則表達(dá)式的字符串本身不合法，會(huì)報(bào)錯(cuò)；

用編譯后的正則表達(dá)式去匹配字符串。

在編寫網(wǎng)站的時(shí)候，有可能我們會(huì)對(duì)用戶注冊(cè)時(shí)輸入的用戶名或者郵箱等進(jìn)行正則驗(yàn)證，那么一個(gè)正則表達(dá)式可能會(huì)匹配成千上萬個(gè)用戶名或者郵箱，每次都需要先編譯后匹配，那么效率顯得很低。那么為了提高效率，我們可以先編譯正則表達(dá)式，只需要編譯一次，然后用的時(shí)候再匹配。

import re #由字母或者下劃線開頭，由數(shù)字，字母，下劃線組成長(zhǎng)度為6-20的字符串 re_c=re.compile('^[a-zA-Z\_][\w\_]{5,19}$') print(re_c.match('a123456789a123456789'))輸出: <_sre.SRE_Match object at 0x000000000065A510>

編譯后生成Regular Expression對(duì)象，由于該對(duì)象自己包含了正則表達(dá)式，所以調(diào)用對(duì)應(yīng)的方法時(shí)不用再次給出正則串。

以上的內(nèi)容只是正則表達(dá)式的九牛一毛，關(guān)于其他的正則表達(dá)式用法請(qǐng)讀者自己查閱，如讀者發(fā)現(xiàn)錯(cuò)誤，歡迎指正。

轉(zhuǎn)載于:https://www.cnblogs.com/neuzk/p/9476429.html

總結(jié)

以上是生活随笔為你收集整理的Python中正则表达式讲解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：光大银行篮球小黑卡分期怎么还？手续费多少
下一篇： Python学习-文件的调用-读取

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

Python中正则表达式讲解

總結(jié)