Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片
生活随笔
收集整理的這篇文章主要介紹了
Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Crawler:爬蟲基于urllib.request庫實現獲取指定網址上的所有圖片
?
?
目錄
輸出結果
核心代碼
?
?
?
?
輸出結果
?
?
?
?
核心代碼
# coding=gbk import urllib.request import re import os import urllibdef getHtml(url): #指定網址獲取函數page = urllib.request.urlopen(url)html = page.read()return html.decode('UTF-8')def getImg(html): #定義獲取圖片函數reg = r'src="(.+?\.jpg)" pic_ext'imgre = re.compile(reg)imglist = imgre.findall(html)x = 0path = r'F:\File_Python\Crawler' # 將圖片保存到F:\File_Python\Crawler文件夾中,如果沒有Crawler文件夾,將會自動則創建if not os.path.isdir(path): os.makedirs(path) paths = path+'\\' for imgurl in imglist: #打開in集合中保存的imgurl圖片網址,循環下載圖片保存在本地urllib.request.urlretrieve(imgurl,'{}{}.jpg'.format(paths,x)) x = x + 1 return imglist html = getHtml("https://tieba.baidu.com/p/2460150866?pn=10")#指定獲取圖片的網址路徑 print (getImg(html))?
?
?
?
總結
以上是生活随笔為你收集整理的Crawler:爬虫基于urllib.request库实现获取指定网址上的所有图片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ML之Hierarchical clus
- 下一篇: MAT之DT:DT实现根据乳腺肿瘤特征向