當前位置：首頁 > 编程语言 > python >内容正文

python

Python爬百度图片并下载到本地实战

發布時間：2025/3/20 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬百度图片并下载到本地实战小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

百度圖片是Ajax加載的，怎么判斷是不是Ajax呢？方法很簡單，我們在頁面進行某種操作時，網頁的鏈接不會變化，但是內容變了，就可以判定網頁內容是Ajax動態加載出來的，例如在瀏覽百度圖片時，鼠標滾輪一直往下滑動，圖片會不斷加載出來，但是網頁的鏈接并沒有變化，百度圖片就是Ajax動態加載出來的。

爬取Ajax動態加載的內容一般需要找到它的json接口，在瀏覽器開發者工具—>Network—>XHR可以找到，如果沒有找到就再選擇其他的看看。

import requests from urllib import parse from uuid import uuid4 import osheaders={ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36', } session=requests.session() session.headers=headers num=0 def getPage(url):page=session.get(url)print(page.status_code)# print(page.json())page.encoding=page.apparent_encodingdata=page.json()['data'] # 列表for i in data[:-1]: # 因為最后一個是空的，所以取到倒數第二個元素img_url=i['hoverURL']print(img_url)imgDownload(img_url)# 下載圖片 def imgDownload(url):if not os.path.exists('06_imgs'):os.makedirs('06_imgs')global numtry:content=session.get(url)with open('06_imgs/{}.jpg'.format(uuid4()),'wb') as f:for chunk in content.iter_content(225): # 每次下載225字節if chunk:f.write(chunk)num += 1print(">>>第{}張爬取成功.".format(num))except:print(">>>爬取失敗.")if __name__ == '__main__':# num=0word=input("請輸入關鍵詞：")pages=input("請輸入要爬取的頁數，每頁30張圖片：")for page in range(int(pages)):url='https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&word='+parse.quote(word)+'&pn='+str((page+1)*30)getPage(url)

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的Python爬百度图片并下载到本地实战的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python爬取快代理IP并测试IP的可
下一篇： Python爬虫百度搜索

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

Python爬百度图片并下载到本地实战

總結