日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

信息提取的一般方法

發(fā)布時間:2025/3/20 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 信息提取的一般方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
import requests import re # 正則表達(dá)式庫 from bs4 import BeautifulSoup url = "https://python123.io/ws/demo.html" r = requests.get(url, timeout=30) r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, "html.parser") # find_all:name、attrs、recursive、string、其他參數(shù) # 標(biāo)簽名、標(biāo)簽屬性值、是否檢索子孫節(jié)點(diǎn)默認(rèn)True、標(biāo)簽中字符串 # name # 獲取全部鏈接 for link in soup.find_all('a'):print(link.get("href")) # 獲取a和p標(biāo)簽內(nèi)容 print("獲取a和p標(biāo)簽內(nèi)容") print(soup.find_all(['a', 'p'])) # 列表形式 for s in soup.find_all(['a', 'p']):print(s) # 獲取soup的全部標(biāo)簽 print("全部標(biāo)簽名稱") for tag in soup.find_all(True):print(tag.name) print("使用正則表達(dá)式查找以b開頭的標(biāo)簽名稱") for tag in soup.find_all(re.compile('b')):print(tag.name) # attrs print("獲取p標(biāo)簽中屬性為course的內(nèi)容") print(soup.find_all('p', 'course')) print("查找id為link1的內(nèi)容") print(soup.find_all(id='link1')) # 若沒有則返回空列表 print("使用正則表達(dá)式查找id以link開頭的標(biāo)簽內(nèi)容") print(soup.find_all(id=re.compile("link"))) # recursive(遞歸的) print(soup.find_all('a')) print("測試recursive:") print(soup.find_all('a', recursive=False)) # 為空,說明soup兒子節(jié)點(diǎn)無a標(biāo)簽 print(soup.find_all('a', recursive=True)) # string print("查找Basic Python") print(soup.find_all(string="Basic Python")) # 沒有輸出空列表 print("使用正則表達(dá)式查找包含Python的內(nèi)容:") print(soup.find_all(string=re.compile("Python"))) # 區(qū)分大小寫

?

總結(jié)

以上是生活随笔為你收集整理的信息提取的一般方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。