當前位置：首頁 > 编程语言 > python >内容正文

python

python下载图片、已知url_python 爬虫之requests爬取页面图片的url，并将图片下载到本地...

發布時間：2025/3/15 python 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 python下载图片、已知url_python 爬虫之requests爬取页面图片的url，并将图片下载到本地... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

import requestsfromlxml import etree

import time

import os

import re

requests=requests.session()

website_url= ''website_name= ''

'''爬取的頁面'''def html_url(url):try:

head=set_headers()

text= requests.get(url,headers=head)

# print(text)

html=etree.HTML(text.text)

img= html.xpath('//img/@src')

# 保存圖片for src inimg:

src=auto_completion(src)

file_path=save_image(src)if file_path ==False:

print('請求的圖片路徑出錯，url地址為：%s'%src)else:

print('保存圖片的地址為：%s'%file_path)

except requests.exceptions.ConnectionErrorase:

print('網絡地址無法訪問，請檢查')

print(e)

except requests.exceptions.RequestExceptionase:

print('訪問異常：')

print(e)'''保存圖片'''def save_image(image_url):ifnot image_url:returnFalse

size= 0number= 0

while size == 0:try:

img_file= requests.get(image_url)

except requests.exceptions.RequestExceptionase:

raise e

# 不是圖片跳過if check_image(img_file.headers['Content-Type']):returnFalse

file_path=image_path(img_file.headers)

# 保存

with open(file_path,'wb') asf:

f.write(img_file.content)

# 判斷是否正確保存圖片

size=os.path.getsize(file_path)if size == 0:

os.remove(file_path)

# 如果該圖片獲取超過十次則跳過

number+= 1

if number >= 10:break

return (file_path if (size > 0) elseFalse)'''自動完成url的補充'''def auto_completion(url):globalwebsite_name,website_url

#如果是http://或者https://開頭直接返回

if re.match('http://|https://',url):returnurl

elif re.match('//',url):if 'https://' inwebsite_name:return 'https:'+url

elif'http://' inwebsite_name:return 'http:' +url

elif re.match('/',url):return website_name+url

elif re.match('./',url):return website_url+url[1::]'''圖片保存的路徑'''def image_path(header):

# 文件夾

file_dir= './save_image/'

ifnot os.path.exists(file_dir):

os.makedirs(file_dir)

# 文件名

file_name=str(time.time())

# 文件后綴

suffix=img_type(header)return file_dir + file_name +suffix'''獲取圖片后綴名'''def img_type(header):

# 獲取文件屬性

image_attr= header['Content-Type']

pattern= 'image/([a-zA-Z]+)'suffix=re.findall(pattern,image_attr,re.IGNORECASE)ifnot suffix:

suffix= 'png'

else:

suffix= suffix[0]

# 獲取后綴if re.search('jpeg',suffix,re.IGNORECASE):

suffix= 'jpg'

return '.' +suffix

# 檢查是否為圖片類型

def check_image(content_type):if 'image' incontent_type:returnFalseelse:returnTrue

#設置頭部

def set_headers():globalwebsite_name, website_url

head={'Host':website_name.split('//')[1],'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',

}returnheadif __name__ == '__main__':

#當前的url，不包含文件名的比如index.html，用來下載當前頁的頁面圖片(./)

website_url= 'https://blog.csdn.net/kindroid/article/details'#域名，用來下載"/"開頭的圖片地址

#感興趣的朋友請幫我完善一下這個自動完成圖片url的補充

website_name= 'https://blog.csdn.net'url= 'https://blog.csdn.net/kindroid/article/details/52095833'html_url(url)

總結

以上是生活随笔為你收集整理的python下载图片、已知url_python 爬虫之requests爬取页面图片的url，并将图片下载到本地...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python 3.6.5编译安装_Cen
下一篇： python改变numpy数据类型_nu

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python下载图片、已知url_python 爬虫之requests爬取页面图片的url，并将图片下载到本地...

總結