《精通正则表达式》读书笔记(1)
聲明:筆記僅供參考,不足之處請見諒。
?
正則表達式能解決什么實際問題?
正則表達式能給你帶來超乎你之前想象的文本處理能力。如常見的簡單文本替換或查找,雖然普通編輯器的替換或查找能滿足一般的需求了,但是如果要處理稍微復雜點的替換或查找操作,那么也許你必須手動處理了。(如替換或查找文本中的所有Email地址)。
一旦掌握了正則表達式,你就會知道它簡直是無價之寶,也難以想象如果沒有它,這日子該怎么過呢?
正則表達式很神奇,所以很難嗎?
如 果沒有相關魔術表演的知識,一定覺得魔術真的很神奇;就像對待外語一樣,一旦以掌握了它,它不再是天書了。那么正則表達式也是如此,如果你沒有正則表達式 相關經驗,可能看不懂任何相關正則表達式的意義,但是如果你掌握了它,那情況就不一樣了,只要練熟之后,你也可以變魔術了。
以操作系統上的搜索做類比
相信大家都用過自己所用系統上的搜索來尋找文件吧,如果你沒用過并不代表你不需要哦,只是時機未到罷了。
相 信絕大多數朋友都是Windows的粉絲,那么該操作系統上啟動搜索的快捷鍵是Win+F,正如一般軟件啟動搜索對話框的快捷鍵是ctrl+F,只不過針 對系統的ctrl是Win鍵而已。在操作系統的搜索使用中就有類似正則表達式的蹤影,比如輸入*.txt,則表示搜索的是以.txt結尾的文件/文件夾, 此處*是一個特殊字符,代表任意文本,類似的還有?問好,代表任意的單個字符。通過這兩個字符,搜索文件的能力大大增強了,但這絕對不是正則表達式,想比 正則表達式,這里的搜索的能力還是很有限的。
正是應這種需求,一種“通用的模式語言”發展了起來,這種功能強大的模式語言和模式本身被稱為“正則表達式”(Regular Expression)
以語言作類比
完整的正則表達式由兩種字符構成:特殊字符(稱為“元字符”,如操作系統中搜索時使用的*,?這種匹配符號,正則表達式的元字符提供了更強大的描述能力)和普通文本字符(就是其他的文字)。
?
一些元字符等的記錄:
完整的正則表達式由兩種字符構成:特殊字符(元字符)和普通字符(文字)
正則表達式結構體:[...],即字符組/集,一個字符組智能匹配且必須匹配單個字符,字符組內部的元字符和外部的元字符概念不同,如在內部.?*都不是元字符。
結構體和無結構體的區別:在結構體x[abc]y中,表示的是或的意思,即x然后a或b或c然后y。在無結構體時xabcy表示的是且的意思,x然后a然后b然后c然后y。
在字符組內部的元字符:字符組元字符
-:不在[或[^后面的"-"表示一個范圍,必須寫著2個字符中間(應該是有間隔的同類字符):[0-9a-z] 0到9和a到z中任意一個。
^:在[后面的"^"表示匹配排除的,寫在字符組中的第1個:[^..]與[…] 前者匹配任何未列出來的字符,即列出的是不希望匹配的字符;后者匹配列出來的字符。
PS:一個字符組,即使是排除型字符組,也需要匹配一個字符。如q[^u]無法匹配“Iraq”,因q后面無字符了。
?
(普通)元字符(非字符組中的元字符,當然有符號相同,但作用不同的):
^:行開頭,在字符組內部和外部表示的意義不一樣;
$:行結尾;
.:點號,匹配任意字符;
|:或,把不同的子表達式組合成一個總的表達式,從而使總表達式能夠匹配任意的子表達式。子表達式稱為“多選分支alternative”,一般會用括號來劃定多選結構的范圍
():括號,劃定范圍,如多選結構的總表達式一般用括號括起來,與其他不相干字符劃分開來。如ga|y和g(a|y)區別是,前者ga或y,后者ga或gy。另外括號一般還能夠“記住”它們包含的子表達式匹配的文本,見反向引用。
? + * 這三個元字符統稱為量詞,即限定了所作用元素的匹配次數。
?:可選項元素,作用于問號前面緊鄰的元素,表示是可選項,即有或沒有
+:加號作用于前面緊鄰的元素,表示能出現一次或多次,即>=1
*:星號作用于前面緊鄰的元素,表示能出現任意多次或者不出現,即>=0
{1,2}:區間量詞,作用于前面緊鄰的元素,限定其出現的次數范圍為1-2次
反向引用:容許我們匹配與表達式先前部分匹配的同樣的文本,即使用先前匹配的東西來再次匹配。一般通過\1這樣的形式表示第一個記憶的匹配文本。
\<:單詞的起始位置,這種貌似只在egrep中適用
\>:單詞的結束位置,這種貌似只在egrep中適用
^和$
^cat$ 匹配:行開頭,然后字母,然后行結尾
^$ 匹配:行開頭,然后行結尾,即空行(無任何字符)
^ 匹配:行開頭。無任何意義,每一行都有開頭
額外的參數:
-i:忽略大小寫,這種寫法在egrep中適用,其它處一般也是通過i來表示,但是寫法不一樣
神奇的轉義:轉義符\,反斜線
如果需要匹配的某個字符本身就是元字符,那么需要對其進行轉義,如\?,這個問號就是轉義的了,是普通字符了,不是元字符了。(可能某些工具如egrep某些版本不支持在字符組內部使用轉義)。PS:在某些用法中,反斜線后面如果跟的不是元字符,那么可能會有特殊的用途,即組合為元字符,即反過來了。
?
PS:不同語言對正則表達式有不同的改進,因此正則表達式有很多“流派”。
轉載于:https://www.cnblogs.com/yevon/archive/2013/03/11/2935048.html
總結
以上是生活随笔為你收集整理的《精通正则表达式》读书笔记(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自动代码工具
- 下一篇: C#异步编程的实现方式(1)——异步委托