Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
準(zhǔn)備工作:
IDE:pycharm 2018.3.5
Anaconda3-2018.12 + Python 3.7.1
1、導(dǎo)入相關(guān)的庫
file -> settings -> project ->project interpreter,點(diǎn)擊右上角 + 號,輸入需要的模塊 bs4 & requests選中后,點(diǎn)擊左下角的install package
2、查看需要爬取的網(wǎng)頁的HTML頁面信息
以我爬取的網(wǎng)頁為例講解:?? ??
定位到網(wǎng)頁文章標(biāo)題的塊class,若class里面有好幾個樣式,可選擇只有標(biāo)題有的樣式,我選擇第二個col-md-7作為爬取定位。
查看標(biāo)題的字號格式,這里是 h4。再就是記住需要爬取的頁面網(wǎng)址,以上基本信息查看完畢。
3、開始設(shè)計(jì)代碼
import requests # 導(dǎo)入requests庫,用來獲取網(wǎng)頁from bs4 import BeautifulSoup # 引入bs4模塊,bs4庫 是解析、遍歷、維護(hù)、“標(biāo)簽樹“的功能庫,bs4庫把html源代碼重新進(jìn)行了格式化res = requests.get('https://www.imefuture.com/news/') # 輸入你要獲取頁面的網(wǎng)址 res.encoding = 'utf-8' # HTML文檔的編碼 soup = BeautifulSoup(res.text,'html.parser') # HTML解析器for news in soup.select('.col-md-7'): # 定位class標(biāo)簽if(len(news.select('h4'))>0): # 定位標(biāo)題字體標(biāo)簽print(news.select('h4')[0].text) # 以文本格式輸出到控制臺4、輸出結(jié)果
?? 與網(wǎng)站版塊首頁的相對比,已經(jīng)把首頁標(biāo)題給爬取下來。
?
?
?
總結(jié)
以上是生活随笔為你收集整理的Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 世界上第一个科学家是谁
- 下一篇: websocket python爬虫_p