日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

丑憨批的爬虫笔记4BeautifulSoup4

發布時間:2024/10/8 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 丑憨批的爬虫笔记4BeautifulSoup4 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

pip install beautifulsoup4
https://python123.io/ws/demo.html

使用方法
參數:1.html信息2.解析器

import requests r = requests.get('https://python123.io/ws/demo.html') demo=r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') print(soup.prettify())

import requests r = requests.get('https://python123.io/ws/demo.html') demo=r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') #此時soup代表demo頁面 soup.title tag =soup.a#只能獲取第一個a標簽內容 #name soup.a.name#查看a的名字 soup.a.parent.name soup.a.parent.parent.name #屬性 是個字典 tag.attrs tag.attrs['class'] tag.attrs['href'] type(tag.attrs) type(tag) #標簽內容 可以跨越多個標簽層次 soup.a.string soup.p soup.p.string type(soup.p.string)

無法處理注釋

summary

基于bs4庫的HTML遍歷方法



.contents用法

import requests r = requests.get('https://python123.io/ws/demo.html') demo=r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') #此時soup代表demo頁面 soup.head soup.head.contents#獲得兒子節點 soup.body.contents len(soup.body.contents) soup.body.contents[1]#取第一個

遍歷兒子節點

上行遍歷

import requests r = requests.get('https://python123.io/ws/demo.html') demo=r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') #此時soup代表demo頁面 soup.title.parent soup.html.parent#是自己 soup.parent#是空的


平行遍歷

標簽樹平行遍歷有條件

import requests r = requests.get('https://python123.io/ws/demo.html') demo=r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') #此時soup代表demo頁面 soup.a.next_sibling # 標簽間的string也構成平行關系,所以是字符串 soup.a.next_sibling.next_sibling###之前的 soup.a.previous_sibling soup.a.previous_sibling.previous_sibling#沒了


summary

格式化和編碼

.prettify

import requests r = requests.get('https://python123.io/ws/demo.html') demo=r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,'html.parser') #此時soup代表demo頁面 print(soup.prettify()) print(soup.a.prettify())

編碼

**

summary

**

標簽tag
標簽名Name
標簽屬性Attributes
標簽間字符串NavigableDtring
注釋的字符串Comment

總結

以上是生活随笔為你收集整理的丑憨批的爬虫笔记4BeautifulSoup4的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。