日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题

發(fā)布時(shí)間:2024/1/8 python 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

準(zhǔn)備工作:

IDE:pycharm 2018.3.5

Anaconda3-2018.12 + Python 3.7.1

1、導(dǎo)入相關(guān)的庫

file -> settings -> project ->project interpreter,點(diǎn)擊右上角 + 號,輸入需要的模塊 bs4 & requests選中后,點(diǎn)擊左下角的install package

2、查看需要爬取的網(wǎng)頁的HTML頁面信息

以我爬取的網(wǎng)頁為例講解:?? ??

定位到網(wǎng)頁文章標(biāo)題的塊class,若class里面有好幾個樣式,可選擇只有標(biāo)題有的樣式,我選擇第二個col-md-7作為爬取定位。

查看標(biāo)題的字號格式,這里是 h4。再就是記住需要爬取的頁面網(wǎng)址,以上基本信息查看完畢。

3、開始設(shè)計(jì)代碼

import requests # 導(dǎo)入requests庫,用來獲取網(wǎng)頁from bs4 import BeautifulSoup # 引入bs4模塊,bs4庫 是解析、遍歷、維護(hù)、“標(biāo)簽樹“的功能庫,bs4庫把html源代碼重新進(jìn)行了格式化res = requests.get('https://www.imefuture.com/news/') # 輸入你要獲取頁面的網(wǎng)址 res.encoding = 'utf-8' # HTML文檔的編碼 soup = BeautifulSoup(res.text,'html.parser') # HTML解析器for news in soup.select('.col-md-7'): # 定位class標(biāo)簽if(len(news.select('h4'))>0): # 定位標(biāo)題字體標(biāo)簽print(news.select('h4')[0].text) # 以文本格式輸出到控制臺

4、輸出結(jié)果

?? 與網(wǎng)站版塊首頁的相對比,已經(jīng)把首頁標(biāo)題給爬取下來。

?

?

?

總結(jié)

以上是生活随笔為你收集整理的Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。