當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于360搜图爬取图片

發(fā)布時(shí)間：2024/9/19 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了基于360搜图爬取图片小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

利用360搜圖爬取圖片

? 最近閑得無聊，搞了個(gè)基于360搜圖的圖片爬取。用得都是比較基礎(chǔ)的知識(shí)，所以這里也分享一下代碼。本人也不是什么大佬。代碼看看就行。**完整的代碼在文章最后面。**下面我就簡(jiǎn)單介紹一下我爬取的過程。

1.第一步

首先我們要知道360關(guān)鍵字是用什么鍵來對(duì)應(yīng)的，我記得360是q對(duì)應(yīng)關(guān)鍵字，百度的是wd對(duì)應(yīng)關(guān)鍵字。

如下360連接https://image.so.com/i?q=%E9%A3%9E%E6%9C%BA&src=srp，這里的q后面的%E9%A3%9E%E6%9C%BA就是對(duì)應(yīng)的url編碼，知道了連接之后，我們就可以打開網(wǎng)頁。

打開網(wǎng)頁的代碼如下：

# 打開url返回沒有解碼的html def open_url(url):r.Request(url).add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36')respond = r.urlopen(url)try:if respond.getcode() == 200:html = respond.read()except Exception as e:page = e.partialhtml = pagereturn html

注意的是：我這里沒有對(duì)爬回來的HTML代碼進(jìn)行encode,也就是說這里的html是二進(jìn)制的。要解碼就需要.encode(‘utf-8’)。

2.第二步

第二步就是分析網(wǎng)頁結(jié)構(gòu)了。看看圖片都藏在哪里，通過瀏覽器F12，我們可以看到源代碼，我找到了圖片的地方。

從這里我們可以找到圖片是所在位置，并且我們可以找到圖片的下載地址，但問題來了，這個(gè)頁面是動(dòng)態(tài)的，也就是說圖片的獲取也是動(dòng)態(tài)的啦，如果我們只是通過定位到圖片，在找圖片的地址，未免有點(diǎn)笨了。

然后我繼續(xù)查看網(wǎng)絡(luò)傳送那里和頁面代碼，然后我在頁面那里找到了頁面圖片初始化的數(shù)據(jù)。這些數(shù)據(jù)存在一段js代碼里面，并且數(shù)據(jù)的結(jié)構(gòu)是json。

這里我寫了兩函數(shù)來獲取信息，我沒有使用正則表達(dá)式，只是單純的做了個(gè)定位。

# 這里只是針對(duì)初始化數(shù)據(jù)（頁面前60-100張進(jìn)行爬取） def json_FindInitimg(string, imgurl_dict):js = json.loads(string) # 將標(biāo)簽中的信息進(jìn)行json加載for elevent in iter(js):if type(js[elevent]) == type([]):for lis in js[elevent]:for (key, value) in lis.items():if key == 'thumb_bak':imgurl_dict[value] = value.split('/')[-1].split('.')[-1]return imgurl_dict# 獲取初始化的圖片（一般是頁面前60或100張） def find_imgurl(html):if html == None:returnimgurl_dict = {}d = pq(html) # 用爬回來的網(wǎng)頁str進(jìn)行網(wǎng)頁分析scr = d('body')('script')('#initData') # 找到對(duì)應(yīng)的標(biāo)簽imgurl_dict = json_FindInitimg(scr.html(), imgurl_dict)return imgurl_dict

爬取的圖片連接：（這里要的是下載連接，當(dāng)然也可以要圖片原網(wǎng)站地址）

生成的字典格式，key是地址，val是圖片格式

當(dāng)然這些是不夠的，這些都是頁面初始化的數(shù)據(jù)。我要的是那些動(dòng)態(tài)傳送過來的圖片，果然我找到了圖片數(shù)據(jù)的請(qǐng)求。

并且那些需要的參數(shù)我也找到了。它放在一個(gè)js代碼段里面。這里的sid等其他參數(shù)，每次打開網(wǎng)頁都不同。

現(xiàn)在就是萬事俱備，只欠東風(fēng)。

首先拿到那些需要的參數(shù)

def find_param(html):if html == None:returnd = pq(html) # 用爬回來的網(wǎng)頁str進(jìn)行網(wǎng)頁分析scr = d('body')('script')('#initParam') # 找到對(duì)應(yīng)的標(biāo)簽param_dict = json.loads(scr.html().replace("'", '"')) #爬取回來的參數(shù)字典return param_dict

然后：（形成連接的url）

# 通過參數(shù)形成新的url（通過這些參數(shù)形成新的url） def Newurl(param_dict, num=1):urllist = []sn = 60ps = 1for i in range(num):URLdata = {'q': p.unquote(param_dict['query']),'pd': 1,'pn': 60,'correct': p.unquote(param_dict['query']),'adstar': param_dict['adstar'],'tab': param_dict['tab'],'sid': param_dict['sid'],'ras': param_dict['ras'],'cn': param_dict['cn'],'gn': param_dict['gn'],'kn': param_dict['kn'],'crn': param_dict['crn'],'bxn': param_dict['bxn'],'cuben': param_dict['cuben'],'src': 'srp','sn': sn,'ps': ps,'pc': 60}url = 'https://image.so.com/j?' + p.urlencode(URLdata)print('生成批道url: ' + url)urllist.append(url)sn += 70ps += 70return urllist

3.第三步

下載圖片下載圖片就非常簡(jiǎn)單了，直接打開圖片連接，然后把打開的連接中讀取二進(jìn)制數(shù)據(jù)，然后保存到文件里面，加上對(duì)應(yīng)的文件命和后綴。

代碼在后面。

4.完整代碼

我也不多說，放在也是爬來玩玩，直接給代碼。能力水平和精力有限，代碼可能有點(diǎn)粗糙。如果出現(xiàn)什么BUG還請(qǐng)各位自己修改。最后說一下，代碼里面有兩個(gè)爬取方向，一個(gè)是頁面是初始化圖片，一個(gè)是基于參數(shù)請(qǐng)求新的圖片。

import urllib.request as r import urllib.parse as p from pyquery import PyQuery as pq import json import os# 打開url返回沒有解碼的html def open_url(url):r.Request(url).add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36')respond = r.urlopen(url)try:if respond.getcode() == 200:html = respond.read()except Exception as e:page = e.partialhtml = pagereturn html# 獲取初始化的圖片（一般是頁面前60或100張） def find_imgurl(html):if html == None:returnimgurl_dict = {}d = pq(html) # 用爬回來的網(wǎng)頁str進(jìn)行網(wǎng)頁分析scr = d('body')('script')('#initData') # 找到對(duì)應(yīng)的標(biāo)簽imgurl_dict = json_FindInitimg(scr.html(), imgurl_dict)return imgurl_dict# 獲取請(qǐng)求參數(shù)（獲取請(qǐng)求參數(shù)） def find_param(html):if html == None:returnd = pq(html) # 用爬回來的網(wǎng)頁str進(jìn)行網(wǎng)頁分析scr = d('body')('script')('#initParam') # 找到對(duì)應(yīng)的標(biāo)簽param_dict = json.loads(scr.html().replace("'", '"')) #爬取回來的參數(shù)字典return param_dict# 通過參數(shù)形成新的url（通過這些參數(shù)形成新的url） def Newurl(param_dict, num=1):urllist = []sn = 60ps = 1for i in range(num):URLdata = {'q': p.unquote(param_dict['query']),'pd': 1,'pn': 60,'correct': p.unquote(param_dict['query']),'adstar': param_dict['adstar'],'tab': param_dict['tab'],'sid': param_dict['sid'],'ras': param_dict['ras'],'cn': param_dict['cn'],'gn': param_dict['gn'],'kn': param_dict['kn'],'crn': param_dict['crn'],'bxn': param_dict['bxn'],'cuben': param_dict['cuben'],'src': 'srp','sn': sn,'ps': ps,'pc': 60}url = 'https://image.so.com/j?' + p.urlencode(URLdata)print('生成批道url: ' + url)urllist.append(url)sn += 70ps += 70return urllist# 這里只是針對(duì)（頁面前60-100張進(jìn)行爬取） def json_FindInitimg(string, imgurl_dict):js = json.loads(string) # 將標(biāo)簽中的信息進(jìn)行json加載for elevent in iter(js):if type(js[elevent]) == type([]):for lis in js[elevent]:for (key, value) in lis.items():if key == 'thumb_bak':print((key, value))imgurl_dict[value] = value.split('/')[-1].split('.')[-1]return imgurl_dict# 下載 def download(dirpath, imgurl_dict):count = 0print(imgurl_dict)for (imgurl, type) in imgurl_dict.items():if type == 'jpg' or type == 'png' or type == 'jpeg':print("圖片[ %s ]開始下載......" % imgurl)html = open_url(imgurl)path = dirpath + str(count) + '.' + typeprint("圖片寫入路徑是:%s" % dirpath + path)with open(path, mode='wb') as f:f.write(html)count += 1return count# 不同的下載方式，下載不同數(shù)量的圖片 def download_img(url, dirpath, num=None):Pcount = 1 # 批道數(shù)if num == None:html = open_url(url).decode('utf-8')imgurl_dict = find_imgurl(html)os.mkdir(dirpath + str(Pcount))download(dirpath+str(Pcount)+'\\', imgurl_dict)else:html = open_url(url).decode('utf-8')for i in Newurl(find_param(html), num=num):newhtml = open_url(i).decode('utf-8')imgurl_dict = {}json_FindInitimg(newhtml, imgurl_dict)os.mkdir(dirpath+str(Pcount)) #工具批道數(shù)新建文件夾download(dirpath+str(Pcount)+'\\', imgurl_dict) #下載到對(duì)應(yīng)的文件夾Pcount +=1if __name__ == '__main__':path = 'F:\\my_img\\' #根目錄（每一批會(huì)在根目錄建一個(gè)新目錄）最后記得加個(gè)'\\'結(jié)尾Qval = input('請(qǐng)輸入你要搜索的圖片：')mod = input('請(qǐng)輸入爬取方式：（1:爬取頁面前60-100張\t0:爬取指定數(shù)量）')data = {'q': Qval,'src': 'srp'}url = 'https://image.so.com/i?' + p.urlencode(data)if mod == '1':download_img(url, dirpath=path)else:num = int(input('請(qǐng)輸入爬取批數(shù)：（一般60/批）'))download_img(url, dirpath=path, num=num)

爬取結(jié)果如下：（爬取的一些動(dòng)漫圖片）

總結(jié)

以上是生活随笔為你收集整理的基于360搜图爬取图片的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：特斯拉 Model 3 网约车不堪高强度
下一篇：在pycharm创建scrapy项目