當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

Python爬虫入门记录1.0：获取网站某板块首页面资讯文章标题

發(fā)布時(shí)間：2024/1/8 python 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬虫入门记录1.0：获取网站某板块首页面资讯文章标题小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

準(zhǔn)備工作：

IDE：pycharm 2018.3.5

Anaconda3-2018.12 + Python 3.7.1

1、導(dǎo)入相關(guān)的庫

file -> settings -> project ->project interpreter，點(diǎn)擊右上角 + 號，輸入需要的模塊 bs4 & requests選中后，點(diǎn)擊左下角的install package

2、查看需要爬取的網(wǎng)頁的HTML頁面信息

以我爬取的網(wǎng)頁為例講解：?? ??

定位到網(wǎng)頁文章標(biāo)題的塊class，若class里面有好幾個樣式，可選擇只有標(biāo)題有的樣式，我選擇第二個col-md-7作為爬取定位。

查看標(biāo)題的字號格式，這里是 h4。再就是記住需要爬取的頁面網(wǎng)址，以上基本信息查看完畢。

3、開始設(shè)計(jì)代碼

import requests # 導(dǎo)入requests庫，用來獲取網(wǎng)頁from bs4 import BeautifulSoup # 引入bs4模塊，bs4庫是解析、遍歷、維護(hù)、“標(biāo)簽樹“的功能庫，bs4庫把html源代碼重新進(jìn)行了格式化res = requests.get('https://www.imefuture.com/news/') # 輸入你要獲取頁面的網(wǎng)址 res.encoding = 'utf-8' # HTML文檔的編碼 soup = BeautifulSoup(res.text,'html.parser') # HTML解析器for news in soup.select('.col-md-7'): # 定位class標(biāo)簽if(len(news.select('h4'))>0): # 定位標(biāo)題字體標(biāo)簽print(news.select('h4')[0].text) # 以文本格式輸出到控制臺

4、輸出結(jié)果

?? 與網(wǎng)站版塊首頁的相對比，已經(jīng)把首頁標(biāo)題給爬取下來。

總結(jié)

以上是生活随笔為你收集整理的Python爬虫入门记录1.0：获取网站某板块首页面资讯文章标题的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：世界上第一个科学家是谁
下一篇： websocket python爬虫_p