python爬虫——爬取抽屉新热榜
生活随笔
收集整理的這篇文章主要介紹了
python爬虫——爬取抽屉新热榜
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
爬取抽屜新熱榜
爬取段子
抽屜網址https://dig.chouti.com/r/scoff/hot/
爬蟲的常規操作,根據需求進行分析。我們要爬取段子,也就是每條段子信息。先按F12查看一下網頁,審查元素。
我們剛好找到段子信息,看看其他段子是不是也在這個位置。我們發現了25條一樣的標簽。每條標簽下都有段子信息,剛好和這頁的25條信息相對應。
提取這些信息,我們同樣使用BeautifulSoup。BeautifulSoup的用法我在另一篇文章中有所介紹BeautifulSoup用法
這是一頁的信息,如何獲取多頁呢,看看第二頁的網址。
再看看第三頁的網址。
我們發現了規律,用表達式寫出來
url = 'http://dig.chouti.com/r/scoff/hot/'+str(i)
這樣就可以獲取多頁的段子信息了。
直接上代碼
完整代碼
import requests from bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:58.0) Gecko/20100101 Firefox/58.0'} for i in range(10):url = 'http://dig.chouti.com/r/scoff/hot/'+str(i)html=requests.get(url,headers=headers)html.encoding=html.apparent_encodingsoup=BeautifulSoup(html.text,'html.parser')div=soup.find(id='content-list')div2=div.find_all('div',class_="item")for i in div2:a=i.find('div',class_="part2")b = a.get('share-title')print(b)with open('duanzi.txt','a',encoding='utf-8')as f:f.write(b)總結
以上是生活随笔為你收集整理的python爬虫——爬取抽屉新热榜的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 优秀案例 | 长江鲲鹏中地数码:打造智慧
- 下一篇: Python之路【第二十篇】:pytho