日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python标准库01 正则表达式 (re包)

發(fā)布時間:2025/4/16 python 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python标准库01 正则表达式 (re包) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要:Python正則表達式標準庫介紹

我將從正則表達式開始講Python的標準庫。正則表達式是文字處理中常用的工具,而且不需要額外的系統(tǒng)知識或經驗。我們會把系統(tǒng)相關的包放在后面講解。

?

正則表達式(regular expression)主要功能是從字符串(string)中通過特定的模式(pattern),搜索想要找到的內容。

語法

之前,我們簡介了字符串相關的處理函數(shù)。我們可以通過這些函數(shù)實現(xiàn)簡單的搜索功能,比如說從字符串“I love you”中搜索是否有“you”這一子字符串。但有些時候,我們只是模糊地知道我們想要找什么,而不能具體說出我是在找“you”,比如說,我想找出字符串中包含的數(shù)字,這些數(shù)字可以是0到9中的任何一個。這些模糊的目標可以作為信息寫入正則表達式,傳遞給Python,從而讓Python知道我們想要找的是什么。

(官方documentation)

在Python中使用正則表達式需要標準庫中的一個包re。

123import rem = re.search('[0-9]','abcd4ef')print(m.group(0))

re.search()接收兩個參數(shù),第一個’[0-9]‘就是我們所說的正則表達式,它告訴Python的是,“聽著,我從字符串想要找的是從0到9的一個數(shù)字字符”。

re.search()如果從第二個參數(shù)找到符合要求的子字符串,就返回一個對象m,你可以通過m.group()的方法查看搜索到的結果。如果沒有找到符合要求的字符,re.search()會返回None。

?

如果你熟悉Linux或者Perl, 你應該已經熟悉正則表達式。當我們打開Linux shell的時候,可以用正則表達式去查找或著刪除我們想要的文件,比如說:

$rm book[0-9][0-9].txt

這就是要刪除類似于book02.txt的文件。book[0-9][0-9].txt所包含的信息是,以book開頭,后面跟兩個數(shù)字字符,之后跟有”.txt”的文件名。如果不符合條件的文件名,比如說:

bo12.txt

book1.txt

book99.text

都不會被選中。

Perl中內建有正則表達式的功能,據(jù)說是所有正則表達式系統(tǒng)中最強的,這也是Perl成為系統(tǒng)管理員利器的一個原因。

?

正則表達式的函數(shù)

1 2 m = re.search(pattern, string)??# 搜索整個字符串,直到發(fā)現(xiàn)符合的子字符串。 m = re.match(pattern, string)?? # 從頭開始檢查字符串是否符合正則表達式。必須從字符串的第一個字符開始就相符。

可以從這兩個函數(shù)中選擇一個進行搜索。上面的例子中,我們如果使用re.match()的話,則會得到None,因為字符串的起始為‘a’, 不符合’[0-9]‘的要求。

對于返回的m, 我們使用m.group()來調用結果。(我們會在后面更詳細解釋m.group())

?

我們還可以在搜索之后將搜索到的子字符串進行替換:

12str = re.sub(pattern, replacement, string) # 在string中利用正則變換pattern進行搜索,對于搜索到的字符串,用另一字符串replacement替換。返回替換后的字符串。

?

此外,常用的正則表達式函數(shù)還有

re.split()??? # 根據(jù)正則表達式分割字符串, 將分割后的所有子字符串放在一個表(list)中返回

re.findall()? # 根據(jù)正則表達式搜索字符串,將所有符合的子字符串放在一給表(list)中返回

?

(在熟悉了上面的函數(shù)后,可以看一下re.compile(),以便于提高搜索效率。)

?

寫一個正則表達式

關鍵在于將信息寫成一個正則表達式。我們先看正則表達式的常用語法:

1)單個字符:

.??????????任意的一個字符

a|b??????? 字符a或字符b

[afg] ???? a或者f或者g的一個字符

[0-4]????? 0-4范圍內的一個字符

[a-f]????? a-f范圍內的一個字符

[^m]?????? 不是m的一個字符

s???????? 一個空格

S???????? 一個非空格

d???????? [0-9]

D???????? [^0-9]

w???????? [0-9a-zA-Z]

W???????? [^0-9a-zA-Z]

?

2)重復

緊跟在單個字符之后,表示多個這樣類似的字符

*???????? 重復?>=0?次

+???????? 重復?>=1?次

????????? 重復?0或者1?次

{m}? ? ???重復m次。比如說 a{4}相當于aaaa,再比如說[1-3]{2}相當于[1-3][1-3]

{m, n}????重復m到n次。比如說a{2, 5}表示a重復2到5次。小于m次的重復,或者大于n次的重復都不符合條件。

?

正則表達????????? 相符的字符串舉例

[0-9]{3,5}?????? 9678

a?b????????????? b

a+b????????????? aaaaab

?

3) 位置

^???????? 字符串的起始位置

$???????? 字符串的結尾位置

?

正則表達????????? 相符的字符串舉例??????? 不相符字符串

^ab.*c$????????? abeec?????????????? cabeec (如果用re.search(), 將無法找到。)
4)返回控制

我們有可能對搜索的結果進行進一步精簡信息。比如下面一個正則表達式:

output_(d{4})

該正則表達式用括號()包圍了一個小的正則表達式,d{4}。 這個小的正則表達式被用于從結果中篩選想要的信息(在這里是四位數(shù)字)。這樣被括號圈起來的正則表達式的一部分,稱為群(group)。
我們可以m.group(number)的方法來查詢群。group(0)是整個正則表達的搜索結果,group(1)是第一個群……

1 2 3 import re m = re.search("output_(d{4})", "output_1986.txt") print(m.group(1))

我們還可以將群命名,以便更好地使用m.group查詢:

123import rem = re.search("output_(?P<year>d{4})", "output_1986.txt")?? #(?P<name>...) 為group命名print(m.group("year"))

?

總結

re.search() re.match() re.sub() re.findall()

正則表達式構成方法

?

練習
有一個文件,文件名為output_1981.10.21.txt 。下面使用Python: 讀取文件名中的日期時間信息,并找出這一天是周幾。將文件改名為output_YYYY-MM-DD-W.txt (YYYY:四位的年,MM:兩位的月份,DD:兩位的日,W:一位的周幾,并假設周一為一周第一天)

習題參考解答

1 2 3 4 5 6 7 8 9 10 11 import re import datetime m = re.search('output_(?P<year>d{4}).(?P<month>d{2}).(?P<day>d{2})', 'output_1981.10.21.txt') weekday = datetime.datetime(int(m.group('year')),int(m.group('month')),int(m.group('day'))).strftime("%w") filename = 'output_' + m.group('year') + '-' + m.group('month') + '-' + m.group('day') + '-' + weekday + '.txt' print (weekday) print filename

總結

以上是生活随笔為你收集整理的Python标准库01 正则表达式 (re包)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。