當前位置：首頁 > 编程语言 > python >内容正文

python

详细分析如何利用python批量爬取百度图片

發布時間：2025/3/15 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了详细分析如何利用python批量爬取百度图片小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

????這篇文章主要寫的是利用python網絡爬蟲批量來爬取百度圖片并保存到文件夾中。
首先我們打開百度圖片這個網頁：https://image.baidu.com/

我們現在隨便搜一個類型的圖片，比如小狗，就可以看見很多可可愛的小狗圖片了：

然后鼠標右擊—點擊檢查—點Network—按Ctrl+R，下滑圖片、觀察Fetch/XHR
我們可以看見不同頁中URL的這三個地方發生了變化

其實，由經驗可知，第三個變化的地方可以不用管他，至于第二個變化的地方，你多看幾個就會發現，似乎并沒有什么規律，反正我是沒有發現什么規律的，然后重點就是第一個變化的地方，我們可以看出，pn是以30為等差遞增的。

在請求頭下面有一個有關url字符串參數：

全部參數為：

tn: resultjson_com logid: 12312929038966618606 ipn: rj ct: 201326592 is: fp: result fr: word: 小狗 queryWord: 小狗 cl: 2 lm: -1 ie: utf-8 oe: utf-8 adpicid: st: -1 z: ic: 0 hd: latest: copyright: s: se: tab: width: height: face: 0 istype: 2 qc: nc: 1 expermode: nojc: isAsync: pn: 30 rn: 30 gsm: 1e

多觀察幾頁的字符串參數，我們可以推測：
①word、queryWord是與我們搜索的圖片類型有關
②pn與第幾張圖片有關
③logid、gsm好像是隨機的，到時候設為空（僅僅是我認為）
至于其他的參數，都是沒有變的

所以代碼如下，可以適當修改其中不必要的東西：

import time import requests import json import urllibdef Image(word,page,path):n = 0pn = 1 #pn表示從第幾張圖片獲取，百度圖片滑動時一次性顯示30張for i in range(1,page):url = 'https://image.baidu.com/search/acjson?'param = {'tn': 'resultjson_com','logid': '','ipn': 'rj','ct': '201326592','is': '','fp': 'result','fr': '','word': word, #圖片類型'queryWord': word,'cl': '2','lm': '-1','ie': 'utf-8','oe': 'utf-8','adpicid': '','st': '-1','z':'' ,'ic':'0' ,'hd': '','latest': '','copyright': '','s':'' ,'se':'' ,'tab': '','width': '','height': '','face': '0','istype': '2','qc': '','nc': '1','expermode': '','nojc': '','isAsync': '','pn': pn,#從第幾張圖片開始'rn': '30','gsm': '',}jpgs_url=[]names=[]jpgs=requests.get(url=url,headers=header,params=param)jpg=json.loads(jpgs.text)jpg=jpg['data']del jpg[-1]for jd in jpg:jpgs_url.append(jd['thumbURL'])names.append(jd['fromPageTitleEnc'])time.sleep(1)for (jpg_url,name) in zip(jpgs_url,names):try:urllib.request.urlretrieve(jpg_url,path+str(name)+'.jpg')n+=1print("正在下載第"+str(n)+"張圖片！")except Exception:continuepn+=29if __name__ == '__main__': header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}word=input('請輸入要爬取的圖片類型(比如風景、動物等)：')page = int(input('請輸入要爬取多少頁：'))+1 path=input('請輸入存儲路徑：').replace('\\','/') #路徑里面需要用 / 而不是 \if path[:-1] != '/': #有時候在輸入路徑的時候，末尾會少一個 / ，這時候會保存到上一級目錄里面，怪尷尬的path=path+'/'Image(word,page,path)print('全部下載完成!')

來看看爬取結果：
爬取狗狗圖片，保存到 D:\Python爬蟲\狗
運行過程

保存結果：

因為最近肝上了崩壞三，所以我也想爬爬芽衣，嘿嘿[壞笑]

來康康圖片吧[期待的搓搓手]

看到文件夾中的圖片，直呼完美，快流鼻血了！！！

總結

以上是生活随笔為你收集整理的详细分析如何利用python批量爬取百度图片的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【OpenCV 例程200篇】16. 不
下一篇： python中strip是什么意思啊_p