日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

發布時間:2025/4/16 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我們以 fox新聞 網的文章來舉例子,把整篇文章爬取出來。

首先是標題,通過結構可以看出來 classarticle-header 的節點下的 h1 里的內容即是標題,通過 string 可以獲取 dom 節點里的文本內容。

# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print(alert_header.string)


然后是正文,通過結構可以看出來 classarticle-body 的節點下的 p 元素組成了正文內容,通過 contents 可以獲取 body 下所有的節點。再遍歷所有的節點,把所有 p 元素的下的內容打印出來。

from urllib.request import urlopen from bs4 import BeautifulSoupurl = urlopen('https://www.foxnews.com/tech/mom-received-dirty-diapers-amazon') soup = BeautifulSoup(url, 'html.parser') # parser 解析# 獲取文章標題 alert_header = soup.find('header', class_="article-header").find('h1') print("標題如下:") print(alert_header.string)# 獲取文章正文 alert_body = soup.find('div', class_="article-body").contents # 所有body里的p節點# 打印文章正文 print("正文如下:") for i in alert_body:if(i.name == "p"):print(i.getText())print()

運行效果圖:
如果中間夾雜了廣告,可以看看文章正文跟廣告在結構上有什么區別,然后進一步把廣告剔除。

喜歡的點個贊?吧!

總結

以上是生活随笔為你收集整理的Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。