生活随笔
收集整理的這篇文章主要介紹了
爬虫4-正则表达式及Python的re模块
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
正則表達(dá)式語(yǔ)法:
# -*- coding: utf-8 -*-
元字符:具有固定含義的特殊符號(hào)
常用元字符:(一般一次匹配一個(gè)字符)
. 匹配除換行符以外的任意字符
\w 匹配字母數(shù)字或下劃線(xiàn)
\s 匹配任意的空白符
\n 匹配一個(gè)換行符
\t 匹配一個(gè)制表符
^ 匹配字符串的開(kāi)始
$ 匹配字符串的結(jié)尾
\W 匹配非字符或數(shù)字或下劃線(xiàn)
\D 匹配非數(shù)字
\S 匹配非空白符
a|b 匹配字符a或字符b
() 匹配括號(hào)內(nèi)的表達(dá)式,也表示一個(gè)組
[...] 匹配字符組中的字符
[^...] 匹配除了字符組中字符的所有字符
量詞:控制前面的元字符出現(xiàn)的次數(shù)
\d* 重復(fù)零次或更多次
+ 重復(fù)一次或更多次
? 重復(fù)零次或一次
{n} 重復(fù)n次
{n,} 重復(fù)n次或更多次
{n,m} 重復(fù)n到m次
貪婪匹配和惰性匹配
.* ?貪婪匹配
.*? 惰性匹配 ?匹配最少
# -*- coding: utf-8 -*-
"""
Created on Tue Apr 20 23:10:49 2021@author: WLH
"""
import re# findall 匹配字符串中所有的符合正則的內(nèi)容 返回的是列表
'''
lst = re.findall("\d+", "我的電話(huà)號(hào)是10086")
print(lst) #['10086']
lst = re.findall("\d+", "我的電話(huà)號(hào)是10086,我朋友電話(huà)號(hào)是10010")
print(lst) #['10086', '10010']
'''# finditer 匹配字符串中所有的內(nèi)容 返回的是迭代器
'''
it = re.finditer("\d+", "我的電話(huà)號(hào)是10086,我朋友電話(huà)號(hào)是10010")
# for i in it:
# print(i)
for i in it:print(i.group())
#輸出結(jié)果
# 10086
# 10010
'''# search 找到一個(gè)就返回 返回的結(jié)果是match對(duì)象,拿數(shù)據(jù)需要.group()
'''
s = re.search("\d+", "我的電話(huà)號(hào)是10086,我朋友電話(huà)號(hào)是10010")
print(s.group()) #10086
'''# match 是從頭開(kāi)始匹配
'''
s = re.match("\d+", "我的電話(huà)號(hào)是10086,我朋友電話(huà)號(hào)是10010")
print(s) # 空
s = re.match("\d+", "10086,我朋友電話(huà)號(hào)是10010")
print(s) # 10086
'''# 預(yù)加載正則表達(dá)式
'''obj = re.compile("\d+")
ret = obj.finditer("我的電話(huà)號(hào)是10086,我朋友電話(huà)號(hào)是10010")
for i in ret:print(i.group())
'''
'''輸出結(jié)果:
10086
10010'''
'''
ret = obj.findall("呵呵噠,我就不信你不還我100000000")
print(ret)
'''
'''輸出結(jié)果:
['100000000']'''s="""
<div class='jay'><span id='1'>郭麒麟</span></div>
<div class='jj'><span id='2'>宋軼</span></div>
<div class='jolin'><span id='3'>大聰明</span></div>
<div class='sylar'><span id='4'>范思哲</span></div>
<div class='tory'><span id='5'>胡說(shuō)八道</span></div>
"""'''
obj = re.compile("<div class='.*?'><span id='\d'>.*?</span></div>",re.S)
#re.S能匹配換行符
result = obj.finditer(s)
for i in result:print(i.group())
'''
'''
obj = re.compile("<div class='.*?'><span id='\d'>(?P<wahaha>.*?)</span></div>",re.S)
#re.S能匹配換行符
result = obj.finditer(s)
for i in result:print(i.group("wahaha"))
'''
obj = re.compile("<div class='.*?'><span id='(?P<id>\d')>(?P<wahaha>.*?)</span></div>",re.S)
result = obj.finditer(s)
for i in result:print(i.group("wahaha"))print(i.group("id"))
正則補(bǔ)充:
import re
pat = re.compile("AA") # AA為正則表達(dá)式 用來(lái)去驗(yàn)證其他的字符串
# m = pat.search("CBA") # search 后的字符串 是被校驗(yàn)的內(nèi)容
# print(m)
# m = pat.search("AACBAA") # search 后的字符串 是被校驗(yàn)的內(nèi)容 只查找第一個(gè)
# print(m)# m = re.search("AA","AASS") # 前面的字符串為規(guī)則 后面的為被校驗(yàn)的對(duì)象
# print(m)# print(re.findall("a","ASDaDFGAa")) # 前面的字符串為規(guī)則 后面的為被校驗(yàn)的對(duì)象
# print(re.findall("[A-Z]","ASDaDFGAa")) # 前面的字符串為規(guī)則 后面的為被校驗(yàn)的對(duì)象# sub 替換
# print(re.sub("a","A","abcdcasd")) # 找到a用A代替 在第三個(gè)字符串中尋找a# 建議在正則表達(dá)式中,被比較的字符串中加上r,不要擔(dān)心轉(zhuǎn)義字符的問(wèn)題
a = r"\aaa-\'"
print(a) # \aaa-\'
總結(jié)
以上是生活随笔為你收集整理的爬虫4-正则表达式及Python的re模块的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。