【Python 每日一技】文本查找和替换
文章目錄
- 1 問題
- 2. 解決方案
- 3. 討論
1 問題
你希望查找并替換一段文本中的模式串。
2. 解決方案
如果以簡單的字符串字面量形式給出模式串,那么你通常可以使用基本的字符串方法如 str.replace() ,例如:
>>> text = 'yeah, but no, but yeah, but no, but yeah' >>> text.replace('yeah', 'yep') 'yep, but no, but yep, but no, but yep'對(duì)于更加復(fù)雜的模式串,則需要結(jié)合 re 模塊的 sub() 函數(shù)/方法以及正則表達(dá)式。為了演示,假設(shè)你希望將形如 11/27/2012 的日期重寫為 2012-11-27 形式。例如:
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' >>> import re >>> re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) 'Today is 2012-11-27. PyCon starts 2013-3-13.'在 re.sub() 函數(shù)中,第一個(gè)參數(shù)用于文本匹配的正則表達(dá)式,第二個(gè)參數(shù)是用于進(jìn)行替換的文本模式,其中的反斜杠加數(shù)字如 \3 指的是第一個(gè)參數(shù)中的捕捉分組編號(hào)。
如果你希望使用某個(gè)正則表達(dá)式進(jìn)行多次重復(fù)的文本匹配,那么可以考慮提前對(duì)其進(jìn)行編譯以提高執(zhí)行的速度。例如:
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' >>> import re >>> date_pattern = re.compile(r'(\d+)/(\d+)/(\d+)') >>> date_pattern.sub(r'\3-\1-\2', text) 'Today is 2012-11-27. PyCon starts 2013-3-13.'對(duì)于復(fù)雜的文本替換,還可以考慮定義一個(gè)用于文本替換的回調(diào)函數(shù)。例如:
>>> from calendar import month_abbr >>> def change_date(m): ... mon_name = month_abbr[int(m.group(1))] ... return '{} {} {}'.format(m.group(2), mon_name, m.group(3)) ... >>> re.sub(r'(\d+)/(\d+)/(\d+)', change_date, text) 'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.' >>> date_pattern.sub(change_date, text) 'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'如上所述,作為輸入,傳入替換回調(diào)函數(shù)的實(shí)參是類似 match() 和 find() 以及 search() 等函數(shù)返回的匹配對(duì)象。在回調(diào)函數(shù)中通過調(diào)用匹配對(duì)象的 group() 方法以剝離出想要的部分。
如果你除了想獲取替換后的文本之外,還希望知道發(fā)生了多少次替換,那么可以使用 re.subn() 函數(shù),例如:
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.' >>> re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) ('Today is 2012-11-27. PyCon starts 2013-3-13.', 2) >>> text_with_replacement, num = re.subn(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) >>> text_with_replacement 'Today is 2012-11-27. PyCon starts 2013-3-13.' >>> num 23. 討論
對(duì)于使用正則表達(dá)式進(jìn)行文本的搜索和替換,基本上都逃不過上述 re.sub() 函數(shù)的用法。實(shí)際上,最有挑戰(zhàn)性是其實(shí)是寫出正確的正則表達(dá)式。
總結(jié)
以上是生活随笔為你收集整理的【Python 每日一技】文本查找和替换的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: qt画个灰度直方图
- 下一篇: Python对网页信息进行爬取并对标题分