日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从实例入手学会BeautifulSoup的常用方法

發布時間:2025/3/19 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从实例入手学会BeautifulSoup的常用方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

場景

Beautiful Soup是一個強大的解析工具,它能根據網頁的結構和屬性等來解析網頁。

實現

導入庫

from bs4 import BeautifulSoup as BS

解析器

BeautifulSoup在解析時實際上依賴解析器,它除了支持Prthon標準庫中的HTML解析器之外,還支持一些第三方解析器,比如lxml。

Beautiful Soup支持的解析器


1.Python標準庫?

BeautifulSoup(markup, “html.parser”)?

Python的內置標準庫、執行速度適中、文檔容錯能力強?

Python 2.7.3及Python 3.2.2之前的版本文檔容錯能力差

2.xml HTML解析器?

BeautifulSoup(markup, “lxml”)?

速度快、文檔容錯能力強?需要安裝C語言庫

3.lxml

XML解析器?

BeautifulSoup(markup, “xml”)?

速度快、唯一支持XML的解析器?需要安裝C語言庫

4.html5lib

?BeautifulSoup(markup, “html5lib”)?

最好的容錯性、以瀏覽器的方式解析文檔、生成HTML5格式的文檔?速度慢、不依賴外部擴展

lxml使用

比如這里我們使用lxml:

soup = BS(text,'lxml')

這里BS是BeautifulSoup的別名,因為前面我們已經:

from bs4 import BeautifulSoup as BS

獲取匹配的第一個標簽

find方法可以獲取匹配的第一個標簽

以爬取情話為例

網址:

https://www.duanwenxue.com/huayu/tianyanmiyu/list_69.html

打開F12進行檢查,發現

情話內容在第一個class為list-short-article的div里面,所以我們可以這樣使用

soup = BS(text,'lxml')arttis = soup.find('div', class_='list-short-article')

獲取匹配的所有標簽???

可以使用find_all方法

比如這里的情話內容都在a標簽里,且其target屬性為blank

所以我們可以這樣獲取:

soup = BS(text,'lxml')arttis = soup.find('div', class_='list-short-article').find_all('a', {'target': "_blank"})

更多方法

更所方法使用請參照BeautifulSoup文檔

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

?

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的从实例入手学会BeautifulSoup的常用方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。