當前位置：首頁 > 编程语言 > python >内容正文

python

python+BeautifulSoup+多进程爬取糗事百科图片

發布時間：2024/9/30 python 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 python+BeautifulSoup+多进程爬取糗事百科图片小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

用到的庫；

import requests import os from bs4 import BeautifulSoup import time from multiprocessing import Pool

定義圖片存儲路徑；

path = r'E:\爬蟲\0805\\'

請求頭，模擬瀏覽器請求；

在瀏覽器中的位置，按f12打開開發者模式；

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36' }

主函數；

-------------------------------------------------------------------- 注：如果你對python感興趣，我這有個學習Python基地，里面有很多學習資料，感興趣的+Q群：895817687 -------------------------------------------------------------------- def get_images(url):data = 'https:'res = requests.get(url,headers=headers)soup = BeautifulSoup(res.text,'lxml')url_infos = soup.select('div.thumb > a > img')# print(url_infos)for url_info in url_infos:try:urls = data+url_info.get('src')if os.path.exists(path+urls.split('/')[-1]):print('圖片已下載')else:image = requests.get(urls,headers=headers)with open(path+urls.split('/')[-1],'wb') as fp:fp.write(image.content)print('正在下載：'+urls)time.sleep(0.5)except Exception as e:print(e)

開始爬蟲程序；

if __name__ == '__main__':# 路由列表urls = ['https://www.qiushibaike.com/imgrank/page/{}/'.format(i) for i in range(1,14)]# 開啟多進程爬取pool = Pool()pool.map(get_images,urls)print('抓取完畢')

爬取中；
打開文件夾查看爬取結果；
done

完整代碼；

import requests import os from bs4 import BeautifulSoup import time from multiprocessing import Pool """ ************常用爬蟲庫***********requestsBeautifulSouppyquery lxml ************爬蟲框架***********scrapy三大解析方式：re,css,xpath """ headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36' } path = r'E:\爬蟲\0805\\' def get_images(url):data = 'https:'res = requests.get(url,headers=headers)soup = BeautifulSoup(res.text,'lxml')url_infos = soup.select('div.thumb > a > img')# print(url_infos)for url_info in url_infos:try:urls = data+url_info.get('src')if os.path.exists(path+urls.split('/')[-1]):print('圖片已下載')else:image = requests.get(urls,headers=headers)with open(path+urls.split('/')[-1],'wb') as fp:fp.write(image.content)print('正在下載：'+urls)time.sleep(0.5)except Exception as e:print(e)if __name__ == '__main__':# 路由列表urls = ['https://www.qiushibaike.com/imgrank/page/{}/'.format(i) for i in range(1,14)]# 開啟多進程爬取pool = Pool()pool.map(get_images,urls)print('抓取完畢')

總結

以上是生活随笔為你收集整理的python+BeautifulSoup+多进程爬取糗事百科图片的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二进制包安装MySQL数据库
下一篇： python+正则+多进程爬取糗事百科图

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python+BeautifulSoup+多进程爬取糗事百科图片

總結