日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

發布時間:2025/4/16 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我們以 fox新聞 網的文章來舉例子,把整篇文章爬取出來。

首先是標題,通過結構可以看出來 classarticle-header 的節點下的 h1 里的內容即是標題,通過 string 可以獲取 dom 節點里的文本內容。

# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print(alert_header.string)


然后是正文,通過結構可以看出來 classarticle-body 的節點下的 p 元素組成了正文內容,通過 contents 可以獲取 body 下所有的節點。再遍歷所有的節點,把所有 p 元素的下的內容打印出來。

from urllib.request import urlopen from bs4 import BeautifulSoupurl = urlopen('https://www.foxnews.com/tech/mom-received-dirty-diapers-amazon') soup = BeautifulSoup(url, 'html.parser') # parser 解析# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print("標題如下:") print(alert_header.string)# 獲取文章正文 alert_body = soup.find('div', class_="article-body").contents # 所有body里的p節點# 打印文章正文 print("正文如下:") for i in alert_body:if(i.name == "p"):print(i.getText())print()

運行效果圖:
如果中間夾雜了廣告,可以看看文章正文跟廣告在結構上有什么區別,然后進一步把廣告剔除。

喜歡的點個贊?吧!

總結

以上是生活随笔為你收集整理的Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。