日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python文本筛选html_Python使用正则表达式去除(过滤)HTML标签提取文字功能

發布時間:2025/3/20 python 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python文本筛选html_Python使用正则表达式去除(过滤)HTML标签提取文字功能 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正則表達式是一個特殊的字符序列,可以幫助您使用模式中保留的專門語法來匹配或查找其他字符串或字符串集。 正則表達式在UNIX世界中被廣泛使用。

下面給大家介紹下Python使用正則表達式去除(過濾)HTML標簽提取文字,具體代碼如下所示:

# -*- coding: utf-8-*-

import re

##過濾HTML中的標簽

#將HTML中標簽等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先過濾CDATA

re_cdata=re.compile('//]*//]]>',re.I) #匹配CDATA

re_script=re.compile(']*>[^',re.I)#Script

re_style=re.compile(']*>[^',re.I)#style

re_br=re.compile('')#處理換行

re_h=re.compile('?w+[^>]*>')#HTML標簽

re_comment=re.compile('')#HTML注釋

s=re_cdata.sub('',htmlstr)#去掉CDATA

s=re_script.sub('',s) #去掉SCRIPT

s=re_style.sub('',s)#去掉style

s=re_br.sub('n',s)#將br轉換為換行

s=re_h.sub('',s) #去掉HTML 標簽

s=re_comment.sub('',s)#去掉HTML注釋

#去掉多余的空行

blank_line=re.compile('n+')

s=blank_line.sub('n',s)

s=replaceCharEntity(s)#替換實體

return s

##替換常用HTML字符實體.

#使用正常的字符替換HTML中特殊的字符實體.

#你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

re_charEntity=re.compile(r'?(?Pw+);')

sz=re_charEntity.search(htmlstr)

while sz:

entity=sz.group()#entity全稱,如>

key=sz.group('name')#去除&;后entity,如>為gt

try:

htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

htmlstr=re_charEntity.sub('',htmlstr,1)

sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

str='' # 需要提取的html字符串

str=filter_tags(str)

print(str)

總結

以上所述是小編給大家介紹的Python使用正則表達式去除(過濾)HTML標簽提取文字功能 ,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對我們網站的支持!

如果你覺得本文對你有幫助,歡迎轉載,煩請注明出處,謝謝!

本文標題: Python使用正則表達式去除(過濾)HTML標簽提取文字功能

本文地址: http://www.cppcns.com/wangluo/re/265431.html

總結

以上是生活随笔為你收集整理的python文本筛选html_Python使用正则表达式去除(过滤)HTML标签提取文字功能的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。