《Python Cookbook 3rd》笔记(2.1):使用多个界定符分割字符串
使用多個(gè)界定符分割字符串
問題
你需要將一個(gè)字符串分割為多個(gè)字段,但是分隔符 (還有周圍的空格) 并不是固定的。
解法
string 對(duì)象的 split() 方法只適應(yīng)于非常簡(jiǎn)單的字符串分割情形,它并不允許有多個(gè)分隔符或者是分隔符周圍不確定的空格。當(dāng)你需要更加靈活的切割字符串的時(shí)候,最好使用 re.split() 方法:
>>> line = 'asdf fjdk; afed, fjek,asdf, foo' >>> import re >>> re.split(r'[;,\s]\s*', line) ['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']討論
函數(shù) re.split() 是非常實(shí)用的,因?yàn)樗试S你為分隔符指定多個(gè)正則模式。比如,在上面的例子中,分隔符可以是逗號(hào),分號(hào)或者是空格,并且后面緊跟著任意個(gè)的空格。只要這個(gè)模式被找到,那么匹配的分隔符兩邊的實(shí)體都會(huì)被當(dāng)成是結(jié)果中的元素返回。返回結(jié)果為一個(gè)字段列表,這個(gè)跟 str.split() 返回值類型是一樣的。
當(dāng)你使用 re.split() 函數(shù)時(shí)候,需要特別注意的是正則表達(dá)式中是否包含一個(gè)括號(hào)捕獲分組。如果使用了捕獲分組,那么被匹配的文本也將出現(xiàn)在結(jié)果列表中。比如,觀察一下這段代碼運(yùn)行后的結(jié)果:
>>> fields = re.split(r'(;j,j\s)\s*', line) >>> fields ['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo'] >>>獲取分割字符在某些情況下也是有用的。比如,你可能想保留分割字符串,用來在后面重新構(gòu)造一個(gè)新的輸出字符串:
>>> values = fields[::2] >>> delimiters = fields[1::2] + [''] >>> values ['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] >>> delimiters [' ', ';', ',', ',', ',', ''] >>> # Reform the line using the same delimiters >>> ''.join(v+d for v,d in zip(values, delimiters)) 'asdf fjdk;afed,fjek,asdf,foo' >>>如果你不想保留分割字符串到結(jié)果列表中去,但仍然需要使用到括號(hào)來分組正則表達(dá)式的話,確保你的分組是非捕獲分組,形如 (?:…) 。比如:
>>> re.split(r'(?:,j;j\s)\s*', line) ['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] >>>總結(jié)
以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记(2.1):使用多个界定符分割字符串的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Java8实战》笔记(15):面向对象
- 下一篇: 《Python Cookbook 3rd