日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法

發布時間:2023/12/10 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文實例介紹了Python通過正則表達式獲取,去除(過濾)或者替換HTML標簽的幾種方法,具體內容如下

python正則表達式關鍵內容:

python正則表達式轉義符:

. 匹配除換行符以外的任意字符

\w 匹配字母或數字或下劃線或漢字

\s 匹配任意的空白符

\d 匹配數字

\b 匹配單詞的開始或結束

^ 匹配字符串的開始

$ 匹配字符串的結束

\W 匹配任意不是字母,數字,下劃線,漢字的字符

\S 匹配任意不是空白符的字符

\D 匹配任意非數字的字符

\B 匹配不是單詞開頭或結束的位置

[^x] 匹配除了x以外的任意字符

[^aeiou] 匹配除了aeiou這幾個字母以外的任意字符

常用的python正則表達式限定符代碼/語法說明:

*重復零次或更多次

+重復一次或更多次

?重復零次或一次

{n}重復n次

{n,}重復n次或更多次

{n,m}重復n到m次

關于python正則表達式命名組:

命名組:(?P

.....)

這篇文章里面還提到了界定( 問號開頭,前向則有個'

前向界定 (?<=…)

后向界定 (?=…)

前向非界定 (?')

print p.sub("", html)

Python通過正則表達式取html中溫度信息代碼示例:

#!/usr/bin/env python

#-*- coding: utf8 -*-

import re

html = """

14℃

"""

if __name__ == '__main__':

p = re.compile(']+>')

print p.sub("", html)

2、Python通過正則表達式去除(過濾)HTML標簽示例代碼:

# -*- coding: utf-8-*-

import re

##過濾HTML中的標簽

#將HTML中標簽等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先過濾CDATA

re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA

re_script=re.compile(']*>[^',re.I)#Script

re_style=re.compile(']*>[^',re.I)#style

re_br=re.compile('

')#處理換行

re_h=re.compile(']*>')#HTML標簽

re_comment=re.compile('

')#HTML注釋

s=re_cdata.sub('',htmlstr)#去掉CDATA

s=re_script.sub('',s) #去掉SCRIPT

s=re_style.sub('',s)#去掉style

s=re_br.sub('\n',s)#將br轉換為換行

s=re_h.sub('',s) #去掉HTML 標簽

s=re_comment.sub('',s)#去掉HTML注釋

#去掉多余的空行

blank_line=re.compile('\n+')

s=blank_line.sub('\n',s)

s=replaceCharEntity(s)#替換實體

return s

##替換常用HTML字符實體.

#使用正常的字符替換HTML中特殊的字符實體.

#你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

re_charEntity=re.compile(r'?(?P

\w+);')

sz=re_charEntity.search(htmlstr)

while sz:

entity=sz.group()#entity全稱,如>

key=sz.group('name')#去除&;后entity,如>為gt

try:

htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

htmlstr=re_charEntity.sub('',htmlstr,1)

sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

s=file('169it.com_index.htm').read()

news=filter_tags(s)

print news

以上就是本文的全部內容,希望對大家的學習有所幫助。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 99久久久无码国产精品免费麻豆 | 亚洲精品乱码久久久久99 | 久久久久无码精品国产sm果冻 | 国语对白做受 | 国产在线a | 淫片在线 | 91久久视频 | 美女张开腿让男人桶爽 | 91av麻豆 | 伊人日本 | www.天天干.com| 超碰超碰超碰超碰 | 欧洲性生活视频 | 91丨porny丨在线中文 | 久久久久人妻一区二区三区 | 成人精品在线观看视频 | 99视频精品 | 婷婷网址 | 一区在线免费观看 | 亚洲天堂无吗 | 中文字幕丝袜诱惑 | 俄罗斯女人裸体性做爰 | 婷婷在线播放 | 国产ts人妖系列高潮 | 色婷婷av一区二区 | 成人久久电影 | 99综合 | 亚洲精品国产成人久久av盗摄 | 亚洲a√| 得得的爱在线视频 | 国产精品精品久久久久久 | 91caob| 大地资源影视在线播放观看高清视频 | 国产破处视频 | 亚洲天堂午夜 | 成人你懂的 | 色站av| 久久国产美女 | 少妇人妻真实偷人精品视频 | 国产精品v欧美精品v日韩精品 | 亚洲精品美女网站 | 亚洲黄v| 亚洲成人伦理 | 超碰成人在线免费观看 | 国产欧美一区二区三区精品酒店 | 找av导航 | 美女福利视频导航 | 婷婷色五| 久久av一区二区三区漫画 | 91免费片 | 日韩av图片| 日本xxxx人| 天天综合天天 | 国产精品99在线观看 | 成人久久网站 | 999热视频| 婷婷社区五月天 | 免费看大片a | 51成人网| 日韩精选| 欧美一区亚洲二区 | fee性满足he牲bbw | 青青青视频免费观看 | 日本精品一区二区视频 | 免费成人深夜夜 | 亚洲老女人视频 | 亚洲六月丁香色婷婷综合久久 | 亚洲经典一区二区三区四区 | 国产精品久久久久久福利 | 午夜一区二区三区免费 | www.天天色| 黄色91免费观看 | 精品亚洲一区二区三区四区五区 | 不卡的av片 | 97黄色片 | 日本免费在线一区 | 国产3p露脸普通话对白 | 欧日韩在线 | 青青草自拍| 国产精品亚洲天堂 | 丰满少妇一区二区三区 | 国产又粗又猛又黄又爽视频 | av一卡| 亚洲精品第五页 | 精品欧美在线 | 日日摸日日添日日碰9学生露脸 | 欧美aaaaaaa | 国产精品麻豆一区二区 | 欧美在线三区 | 精品动漫一区二区三区的观看方式 | 超91在线 | 华人在线视频 | 欧美激情喷水 | 91在线无精精品入口 | 老牛影视av一区二区在线观看 | 国产山村乱淫老妇女视频 | 国产做a视频 | 警察高h荡肉呻吟男男 | 少妇激情一区二区三区 |