當前位置：首頁 >

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

發布時間：2025/4/16 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我們以 fox新聞 網的文章來舉例子，把整篇文章爬取出來。

首先是標題，通過結構可以看出來 class 為 article-header 的節點下的 h1 里的內容即是標題，通過 string 可以獲取 dom 節點里的文本內容。

# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print(alert_header.string)

然后是正文，通過結構可以看出來 class 為 article-body 的節點下的 p 元素組成了正文內容，通過 contents 可以獲取 body 下所有的節點。再遍歷所有的節點，把所有 p 元素的下的內容打印出來。

from urllib.request import urlopen from bs4 import BeautifulSoupurl = urlopen('https://www.foxnews.com/tech/mom-received-dirty-diapers-amazon') soup = BeautifulSoup(url, 'html.parser') # parser 解析# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print("標題如下：") print(alert_header.string)# 獲取文章正文 alert_body = soup.find('div', class_="article-body").contents # 所有body里的p節點# 打印文章正文 print("正文如下：") for i in alert_body:if(i.name == "p"):print(i.getText())print()

運行效果圖：
如果中間夾雜了廣告，可以看看文章正文跟廣告在結構上有什么區別，然后進一步把廣告剔除。

喜歡的點個贊?吧！

總結

以上是生活随笔為你收集整理的Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python 库安装方法：pip安装ta
下一篇： Python 技术篇-含中文编码的代码运

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

總結