python模块之re正则表达式
一、簡單介紹
正則表達(dá)式是一種小型的、高度專業(yè)化的編程語言,并不是python中特有的,是許多編程語言中基礎(chǔ)而又重要的一部分。在python中,主要通過re模塊來實現(xiàn)。
正則表達(dá)式模式被編譯成一系列的字節(jié)碼,然后由用c編寫的匹配引擎執(zhí)行。那么正則表達(dá)式通常有哪些使用場景呢?
比如為想要匹配的相應(yīng)字符串集指定規(guī)則;
該字符串集可以是包含e-mail地址、Internet地址、電話號碼,或是根據(jù)需求自定義的一些字符串集;
當(dāng)然也可以去判斷一個字符串集是否符合我們定義的匹配規(guī)則;
找到字符串中匹配該規(guī)則的部分內(nèi)容;
修改、切割等一系列的文本處理;
......
二、特殊符號和字符(元字符)
這里介紹常見的一些元字符,它給予正則表達(dá)式強(qiáng)大的功能和靈活性。表2-1列出了比較常見的符號和字符。
?
三、正則表達(dá)式
1、使用 compile()函數(shù)編譯正則表達(dá)式
由于python代碼最終會被翻譯成字節(jié)碼,然后在解釋器上執(zhí)行。所以對于我們代碼中經(jīng)常要用到的一些正則表達(dá)式進(jìn)行預(yù)編譯,執(zhí)行起來會更加便捷。
re模塊中的大多數(shù)函數(shù)和已經(jīng)編譯的正則表達(dá)式對象和正則匹配對象的方法同名并且具有相同的功能。
示例:
1 2 3 4 5 6 7 8 9 10 11 | >>>?import?re >>> r1?=?r'bugs'????????????????????????????# 字符串前加"r"反斜杠就不會被任何特殊方式處理,這是個習(xí)慣,雖然這里沒用到 >>> re.findall(r1,?'bugsbunny')?????????????# 直接利用re模塊進(jìn)行解釋性地匹配 ['bugs']????????????????????????? >>> >>> r2?=?re.compile(r1)?????????????????????# 如果r1這個匹配規(guī)則你會經(jīng)常用到,為了提高效率,那就進(jìn)行預(yù)編譯吧 >>> r2??????????????????????????????????????# 編譯后的正則對象 <_sre.SRE_Pattern?object?at?0x7f5d7db99bb0> >>> >>> r2.findall('bugsbunny')?????????????????# 訪問對象的findall方法得到的匹配結(jié)果與上面是一致的 ['bugs']????????????????????????????????????# 所以說,re模塊中的大多數(shù)函數(shù)和已經(jīng)編譯的正則表達(dá)式對象和正則匹配對象的方法同名并且具有相同的功能 |
re.compile()函數(shù)也接受可選的標(biāo)志參數(shù),常用來實現(xiàn)不同的特殊功能和語法變更。這些標(biāo)志也可以作為參數(shù)適用于大多數(shù)re模塊函數(shù)。這些標(biāo)志可以用操作符(|)合并。
示例:
1 2 3 4 5 6 7 8 9 | >>>?import?re >>> r1?=?r'bugs' >>> r2?=?re.compile(r1,re.I)??# 這里選擇的是忽略大小寫的標(biāo)志,完整的是re.IGNORECASE,這里簡寫re.I >>> r2.findall('BugsBunny') ['Bugs'] # re.S 使.匹配換行符在內(nèi)的所有字符 # re.M 多行匹配,英雄^和$ # re,X 用來使正則匹配模式組織得更加清晰 |
完整的標(biāo)志參數(shù)列表和用法可以參考相關(guān)官方文檔。
?
2、使用正則表達(dá)式
re模塊提供了一個正則表達(dá)式引擎的接口,下面具體介紹一些常用的函數(shù)和方法。
匹配對象以及group()和groups()方法
當(dāng)處理正則表達(dá)式時,除了正則表達(dá)式對象之外,還有一個對象類型:匹配對象。這些是成功調(diào)用 match()或者search()返回的對象。匹配對象有兩個主要的方法:group()和groups()。
group()要么返回整個匹配對象,要么根據(jù)要求返回特定子組。groups()則僅返回一個包含唯一或者全部子組的元組。如果沒有子組的要求,那么當(dāng)group()仍然返回整個匹配時,groups返回一個空元組。下面一些函數(shù)示例會演示到此方法。
使用 match()方法匹配字符串
match()函數(shù)從字符串的起始部分對模式進(jìn)行匹配。如果匹配成功,就返回一個匹配對象;如果匹配失敗,就返回 None,匹配對象的方法 group()方法就能夠用于顯示那個成功的匹配。
示例如下:
1 2 3 4 5 6 7 | >>> m?=?re.match('bugs',?'bugsbunny')?????# 模式匹配字符串 >>>?if?m?is?not?None:?????????????????????# 如果匹配成功,就輸出匹配內(nèi)容 ...???? m.group() ... 'bugs' >>> m <_sre.SRE_Match?object?at?0x7f5d7da1f168>?# 確認(rèn)返回的匹配對象 |
?使用search()在一個字符串中查找模式
search()的工作方式與match()完全一致,不同之處在于search()是對給定正則表達(dá)式模式搜索第一次出現(xiàn)的匹配情況。簡單來說,就是在任意位置符合都能匹配成功,不僅僅是字符串的起始部分,這就是與match()函數(shù)的區(qū)別,用腳指頭想想search()方法使用的范圍更多更廣。
示例:
1 2 3 4 5 | >>> m?=?re.search('bugs',?'hello bugsbunny') >>>?if?m?is?not?None: ...???? m.group() ... 'bugs' |
?使用findall()和finditer()查找每一次出現(xiàn)的位置
findall()是用來查找字符串中所有(非重復(fù))出現(xiàn)的正則表達(dá)式模式,并返回一個匹配列表;finditer()與findall()不同的地方是返回一個迭代器,對于每一次匹配,迭代器都返回一個匹配對象。
1 2 3 4 5 6 7 8 | >>> m?=?re.findall('bugs',?'bugsbunnybugs') >>> m ['bugs',?'bugs'] >>> m?=?re.finditer('bugs',?'bugsbunnybugs') >>> m.next()???????????????????????????????????# 迭代器用next()方法返回一個匹配對象 <_sre.SRE_Match?object?at?0x7f5d7da71a58>??????# 匹配用group()方法顯示出來 >>> m.next().group() 'bugs' |
?使用sub()和subn()搜索與替換
都是將某字符串中所有匹配正則表達(dá)式的部分進(jìn)行某種形式的替換。sub()返回一個用來替換的字符串,可以定義替換次數(shù),默認(rèn)替換所有出現(xiàn)的位置。subn()和sub()一樣,但subn()還返回一個表示替換的總是,替換后的字符串和表示替換總數(shù)一起作為一個擁有兩個元素的元組返回。
示例:
1 2 3 4 5 6 | >>> r?=?'a.b' >>> m?=?'acb abc aab aac' >>> re.sub(r,'hello',m) 'hello abc hello aac' >>> re.subn(r,'hello',m) ('hello abc hello aac',?2) |
?字符串也有一個replace()方法,當(dāng)遇到一些模糊搜索替換的時候,就需要更為靈活的sub()方法了。
使用split()分割字符串
同樣的,字符串中也有split(),但它也不能處理正則表達(dá)式匹配的分割。在re模塊中,分居正則表達(dá)式的模式分隔符,split函數(shù)將字符串分割為列表,然后返回成功匹配的列表。
示例:
1 2 3 | >>> s?=?'1+2-3*4' >>> re.split(r'[\+\-\*]',s) ['1',?'2',?'3',?'4'] |
?分組
有時在匹配的時候我們只想提取一些想要的信息或者對提取的信息作一個分類,這時就需要對正則匹配模式進(jìn)行分組,只需要加上()即可。
示例:
1 2 3 4 5 6 7 8 9 | >>> m?=?re.match('(\w{3})-(\d{3})','abc-123') >>> m.group()???????# 完整匹配???????????????????????? 'abc-123' >>> m.group(1)??????# 子組1 'abc' >>> m.group(2)??????# 子組2 '123' >>> m.groups()??????# 全部子組 ('abc',?'123') |
?由以上的例子可以看出,group()通常用于以普通方式顯示所有的匹配部分,但也能用于獲取各個匹配的子組。可以使用groups()方法來獲取一個包含所有匹配字符串的元組。
?
轉(zhuǎn)載于:https://blog.51cto.com/zhanglida66/1921601
總結(jié)
以上是生活随笔為你收集整理的python模块之re正则表达式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信小程序开发-IP地址查询-例子
- 下一篇: R 调用 python