日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

【学习笔记】Python - Beautiful Soup

發(fā)布時間:2025/3/20 python 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【学习笔记】Python - Beautiful Soup 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Beautiful Soup

Beautiful Soup是一個模塊,用于從HTML頁面中提取信息(類似于正則表達式的功能)。Beautiful Soup的模塊名稱是“bs4”(表示Beautiful Soup的第4版)。

安裝Beautiful Soup

命令:pip install beautifulsoup4

導入:import bs4

使用Beautiful Soup

1、根據(jù)HTML創(chuàng)建一個Beautiful Soup對象

bs4.BeautifulSoup()函數(shù)調用時需要一個字符串,其中包含了將要解析的HTML文件。

bs4.BeautifulSoup()函數(shù)返回一個BeautifulSoup對象。

當然bs4.BeautifulSoup()函數(shù)也可以從本地讀入HTML文件,前提是在本地保存了HTML文件,它會返回一個BeautifulSoup對象。

2、使用select()方法尋找元素

選擇器就好比正則表達式,它們指定了要尋找的模式,就可以取得Web頁面元素。

傳遞給select()方法的選擇器

將要匹配...

soup.select(‘div’)

所有名為<div>的元素

soup.select(‘#author’)

帶有id屬性為author的元素

soup.select(‘.notice’)

所有使用CSS class屬性名為notice的元素

soup.select(‘div span’)

所以在<div>元素之內的<span>元素

soup.select(‘div > span’)

所有直接在<div>元素之內的<span>元素,中間沒有其他元素

soup.select(‘input[name]’)

所有名為<input>,并有一個name屬性,其值無所謂的元素

soup.select(‘input[type=”button”]’)

所有名為<input>,并有一個type屬性,其值為button的元素

不同的選擇器模式可以組合起來,形成更復雜的匹配。

比如soup.select(‘p#author’)將匹配在<p>元素內所有id屬性為author的元素。

select()方法將返回一個Tag對象的列表,這是Beautiful Soup表示一個HTML元素的方式。Tag值可以傳遞給str()函數(shù),顯示它們代表的HTML標簽。Tag值也可以有attrs屬性,它將該Tag的所有HTML屬性作為一個字典。

上面的代碼將所有帶有id = “su”的元素都找出來了,返回一個列表,列表中只有一個Tag對象(僅一次匹配),getText()方法返回元素內部文本或者內部HTML(即開始/結束標簽之間的內容),最后attrs屬性返回了一個字典。

3、通過元素獲取數(shù)據(jù)

Tag對象的get()方法可以很容易從元素中獲取屬性值,向該方法傳入一個屬性名稱的字符串,它將返回該屬性的值。

總結

以上是生活随笔為你收集整理的【学习笔记】Python - Beautiful Soup的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。