當(dāng)前位置：首頁 >

信息提取的一般方法

發(fā)布時間：2025/3/20 31 豆豆

生活随笔收集整理的這篇文章主要介紹了信息提取的一般方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

import requests import re # 正則表達(dá)式庫 from bs4 import BeautifulSoup url = "https://python123.io/ws/demo.html" r = requests.get(url, timeout=30) r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, "html.parser") # find_all:name、attrs、recursive、string、其他參數(shù) # 標(biāo)簽名、標(biāo)簽屬性值、是否檢索子孫節(jié)點(diǎn)默認(rèn)True、標(biāo)簽中字符串 # name # 獲取全部鏈接 for link in soup.find_all('a'):print(link.get("href")) # 獲取a和p標(biāo)簽內(nèi)容 print("獲取a和p標(biāo)簽內(nèi)容") print(soup.find_all(['a', 'p'])) # 列表形式 for s in soup.find_all(['a', 'p']):print(s) # 獲取soup的全部標(biāo)簽 print("全部標(biāo)簽名稱") for tag in soup.find_all(True):print(tag.name) print("使用正則表達(dá)式查找以b開頭的標(biāo)簽名稱") for tag in soup.find_all(re.compile('b')):print(tag.name) # attrs print("獲取p標(biāo)簽中屬性為course的內(nèi)容") print(soup.find_all('p', 'course')) print("查找id為link1的內(nèi)容") print(soup.find_all(id='link1')) # 若沒有則返回空列表 print("使用正則表達(dá)式查找id以link開頭的標(biāo)簽內(nèi)容") print(soup.find_all(id=re.compile("link"))) # recursive(遞歸的) print(soup.find_all('a')) print("測試recursive：") print(soup.find_all('a', recursive=False)) # 為空，說明soup兒子節(jié)點(diǎn)無a標(biāo)簽 print(soup.find_all('a', recursive=True)) # string print("查找Basic Python") print(soup.find_all(string="Basic Python")) # 沒有輸出空列表 print("使用正則表達(dá)式查找包含Python的內(nèi)容：") print(soup.find_all(string=re.compile("Python"))) # 區(qū)分大小寫

總結(jié)

以上是生活随笔為你收集整理的信息提取的一般方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

信息提取的一般方法

總結(jié)