當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

[python爬虫] 爬取图片无法打开或已损坏的简单探讨

發(fā)布時(shí)間：2024/5/28 python 70 豆豆

生活随笔收集整理的這篇文章主要介紹了 [python爬虫] 爬取图片无法打开或已损坏的简单探讨小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

? ? ? ? 本文主要針對(duì)python使用urlretrieve或urlopen下載百度、搜狗、googto（谷歌鏡像）等圖片時(shí)，出現(xiàn)"無法打開圖片或已損壞"的問題，作者對(duì)它進(jìn)行簡(jiǎn)單的探討。同時(shí)，作者將進(jìn)一步幫你鞏固selenium自動(dòng)化操作和urllib庫(kù)等知識(shí)。
? ? ? ? 感謝朋友"露為霜"的幫助！希望以后能實(shí)現(xiàn)強(qiáng)大的圖片爬蟲代碼~

一. 引入Selenium自動(dòng)爬取百度圖片

? ? ? ? 下面這部分Selenium代碼的主要功能是：
? ? ? ? ? ??1.先自動(dòng)運(yùn)行瀏覽器，并訪問百度圖片鏈接：http://image.baidu.com/
? ? ? ? ? ??2.通過driver.find_element_by_xpath()函數(shù)獲取輸入框的位置；
? ? ? ? ? ? 3.在輸入框中自動(dòng)輸入搜索關(guān)鍵詞"鄧肯"，再輸入回車搜索"鄧肯"相關(guān)圖片；
? ? ? ? ? ? 4.再通過find_element_by_xpath()獲取圖片的原圖url，這里僅獲取一張圖片；
? ? ? ? ? ??5.調(diào)用urllib的urlretrieve()函數(shù)下載圖片。
? ? ? ? 最后整個(gè)動(dòng)態(tài)效果如下圖所示，但是圖片卻無法顯示：

? ? ? ? 代碼如下：
# -*- coding: utf-8 -*- import urllib import re import time import os from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.support.ui as ui from selenium.webdriver.common.action_chains import ActionChains #Open PhantomJS #driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") driver = webdriver.Firefox() wait = ui.WebDriverWait(driver,10)#Search Picture By Baidu url = "http://image.baidu.com/" name = u"鄧肯" driver.get(url) elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input") elem_inp.send_keys(name) elem_inp.send_keys(Keys.RETURN) time.sleep(5)#Get the URL of Pictures #elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a") elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img") elem_url = elem_pic.get_attribute("src") print elem_url#Download Pictures driver.get(elem_url) urllib.urlretrieve(elem_url,"picture.jpg") print "Download Pictures!!!"

二. 簡(jiǎn)單分析原因及知識(shí)鞏固

? ? ? ?1.urllib.urlretrieve()
? ? ? ?通過urlretrieve()函數(shù)可設(shè)置下載進(jìn)度發(fā)現(xiàn)圖片是一下子就加載的。這里給大家鞏固這個(gè)urlretrieve函數(shù)的方法和Python時(shí)間命名方式，代碼如下：

# -*- coding: utf-8 -*- import urllib import time import os#顯示下載進(jìn)度 def schedule(a,b,c):#a:已下載的數(shù)據(jù)塊 b:數(shù)據(jù)塊的大小 c:遠(yuǎn)程文件的大小per = 100.0 * a * b / cif per > 100 :per = 100print '%.2f%%' % perif __name__ == '__main__':url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"#定義文件名時(shí)間命名t = time.localtime(time.time())#反斜杠連接多行filename = str(t.__getattribute__("tm_year")) + "_" + \str(t.__getattribute__("tm_mon")) + "_" + \str(t.__getattribute__("tm_mday"))target = "%s.jpg" % filenameprint targeturllib.urlretrieve(url,target,schedule)print "Download Picture!!!"

? ? ? ? 發(fā)現(xiàn)該圖片的大小僅為168字節(jié)，其中輸出結(jié)果如下圖，獲取的URL地址如下：
http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg?
而換張圖片是能顯示下載進(jìn)度的，如我的頭像。顯然我想讓程序加個(gè)進(jìn)度就能爬取圖片的想法失敗。頭像地址：http://avatar.csdn.net/F/8/5/1_eastmount.jpg

? ? ? ? 猜測(cè)可能獲取的百度URL不是原圖地址，或者是個(gè)服務(wù)器設(shè)置了相應(yīng)的攔截或加密。參考"Python爬蟲抓取網(wǎng)頁(yè)圖片"，函數(shù)相關(guān)介紹如下：

>>> help(urllib.urlretrieve) Help on function urlretrieve in module urllib: urlretrieve(url, filename=None, reporthook=None, data=None)參數(shù)url：指定的下載路徑參數(shù) finename：指定了保存本地路徑（如果參數(shù)未指定，urllib會(huì)生成一個(gè)臨時(shí)文件保存數(shù)據(jù)。）參數(shù) reporthook：是一個(gè)回調(diào)函數(shù)，當(dāng)連接上服務(wù)器、以及相應(yīng)的數(shù)據(jù)塊傳輸完畢時(shí)會(huì)觸發(fā)該回調(diào)，我們可以利用這個(gè)回調(diào)函數(shù)來顯示當(dāng)前的下載進(jìn)度。參數(shù) data：指 post 到服務(wù)器的數(shù)據(jù)，該方法返回一個(gè)包含兩個(gè)元素的(filename, headers)元組，filename 表示保存到本地的路徑，header 表示服務(wù)器的響應(yīng)頭。

? ? ? ?2.urllib2.urlopen()
? ? ? ?換個(gè)方法urlopen()實(shí)現(xiàn)，同時(shí)設(shè)置消息頭試試，并輸出信息和圖片大小。

# -*- coding: utf-8 -*- import os import sys import urllib import urllib2#設(shè)置消息頭 url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg" header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/35.0.1916.114 Safari/537.36','Cookie': 'AspxAutoDetectCookieSupport=1' } request = urllib2.Request(url, None, header) response = urllib2.urlopen(request) print response.headers['Content-Length']with open("picture.jpg","wb") as f:f.write(response.read()) print response.geturl() print response.info() #返回報(bào)文頭信息 print urllib2.urlopen(url).read() ? ? ? ? 返回內(nèi)容是”HTTPError: HTTP Error 403: Forbidden“，Selenium打開如下：

? ? ? ? 其中403錯(cuò)誤介紹如下，服務(wù)器拒絕服務(wù)：

? ? ? ? 換成我的博客圖像那張圖是能下載的，同時(shí)設(shè)置消息頭和代理，推薦一篇文章：
? ? ? ??[Python]網(wǎng)絡(luò)爬蟲（五）：urllib2的使用細(xì)節(jié)與抓站技巧

三. 解決方法

? ? ? ? 主要參考三篇文章和自己的一些想法：
? ? ? ??selenium+python 爬取網(wǎng)絡(luò)圖片(2) -- 百度
? ? ? ??Python 3 多線程下載百度圖片搜索結(jié)果
? ? ? ??CSDN博客搬家到WordPress ?- curl設(shè)置headers爬取

? ? ? ? 第一個(gè)方法 F12審查元素和SRC的騙局
? ? ? ? 這是感謝"露為霜"同學(xué)提供的方法，如果你通過瀏覽器點(diǎn)開百度搜索"鄧肯"的第一張圖片，復(fù)制網(wǎng)址后，會(huì)發(fā)現(xiàn)圖片真實(shí)的地址為：
? ? ? ??http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
? ? ? ? 此時(shí)你再分析百度搜索頁(yè)面，你會(huì)發(fā)現(xiàn)"F12審查元素和獲取src元素的行為欺騙了你"，正是因?yàn)樗鼈z定位到了錯(cuò)誤的圖片鏈接。而真實(shí)的URL是在"ul/li/"中的"data-objurl"屬性中。

? ? ? ? 代碼如下：

# -*- coding: utf-8 -*- import urllib import re import time import os from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.support.ui as ui from selenium.webdriver.common.action_chains import ActionChains#Open PhantomJS #driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe") driver = webdriver.Firefox() wait = ui.WebDriverWait(driver,10)#Search Picture By Baidu url = "http://image.baidu.com/" name = u"鄧肯" driver.get(url) elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input") elem_inp.send_keys(name) elem_inp.send_keys(Keys.RETURN) time.sleep(5)#Get the URL of Pictures num = 1 elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li") for elem in elem_pic:elem_url = elem.get_attribute("data-objurl")print elem_url#Download Picturesname = "%03d" % numurllib.urlretrieve(elem_url, str(name) + ".jpg")num = num + 1 else:print "Download Pictures!!!" ? ? ? ? 運(yùn)行代碼成功爬取了9張圖片，顯然成功了！雖然最后報(bào)錯(cuò)：IOError: [Errno socket error] [Errno 10060] ，只爬取了9張圖片，但是至少可以正確解決了該問題。運(yùn)行截圖如下所示：
? ? ? ? 同樣的道理，googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可獲取正確的圖片地址并正確下載。
? ? ? ? PS：百度圖片動(dòng)態(tài)加載的功能是非常強(qiáng)大的，當(dāng)你的鼠標(biāo)拖動(dòng)時(shí)，它會(huì)自動(dòng)增加新的頁(yè)面，在<ul>中包括新的一批<li>張圖片，這也是不同于其它網(wǎng)頁(yè)在右下角點(diǎn)擊"1、2、3..."翻頁(yè)的，可能也會(huì)成為海量圖片爬取的又一難點(diǎn)。

? ? ? ? 第二個(gè)方法 Selenium使用右鍵另存為
? ? ? ? 還是使用老的鏈接，雖然讀取是無法顯示的，但嘗試通過Selenium的鼠標(biāo)右鍵另存為功能，看能不能爬取成功。
# -*- coding: utf-8 -*- import urllib import re import time import os from selenium import webdriver from selenium.webdriver.common.keys import Keys import selenium.webdriver.support.ui as ui from selenium.webdriver.common.action_chains import ActionChains#Open PhantomJS driver = webdriver.Firefox() wait = ui.WebDriverWait(driver,10)#Search Picture By Baidu url = "http://image.baidu.com/" name = u"鄧肯" driver.get(url) elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input") elem_inp.send_keys(name) elem_inp.send_keys(Keys.RETURN) time.sleep(5)#Get the URL of Pictures elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img") elem_url = elem_pic.get_attribute("src") print elem_url#鼠標(biāo)移動(dòng)至圖片上右鍵保存圖片 driver.get(elem_url) print driver.page_source elem = driver.find_element_by_xpath("//img") action = ActionChains(driver).move_to_element(elem) action.context_click(elem) #右鍵 #當(dāng)右鍵鼠標(biāo)點(diǎn)擊鍵盤光標(biāo)向下則移動(dòng)至右鍵菜單第一個(gè)選項(xiàng) action.send_keys(Keys.ARROW_DOWN) action.send_keys('v') #另存為 action.perform() print "Download Pictures!!!" ? ? ? ? 運(yùn)行效果如下圖所示。雖然它能實(shí)現(xiàn)右鍵另存為，但是需要手動(dòng)點(diǎn)擊保存，其原因是selenium無法操作操作系統(tǒng)級(jí)的對(duì)話框，又說"set profile"代碼段的設(shè)置能解決問題的并不靠譜。通過鉤子Hook函數(shù)可以實(shí)現(xiàn)，以前做過C#的鉤子自動(dòng)點(diǎn)擊功能，但是想到下載圖片需要彈出并點(diǎn)擊無數(shù)次對(duì)話框就很蛋疼，所以該方法并不好！
? ? ? ? 鉤子函數(shù)java版本結(jié)合robot可以閱讀下面這篇文章：
? ? ? ??selenium webdriver 右鍵另存為下載文件（結(jié)合robot and autoIt）

?
? ? ? ? 第三個(gè)方法通過Selenium自動(dòng)點(diǎn)擊百度的下載按鈕
? ? ? ? 其實(shí)現(xiàn)過程就是通過Selenium找到"下載"按鈕，再點(diǎn)擊或獲取鏈接即可。
? ? ? ? 該方法參考文章：selenium+python 爬取網(wǎng)絡(luò)圖片(2) -- 百度
? ? ? ? 同時(shí)，這里需要強(qiáng)調(diào)百度動(dòng)態(tài)加載，可以通過Selenium模擬滾動(dòng)窗口實(shí)現(xiàn)，也參考上面文章。其中核心代碼為：
? ? ? ??driver.maximize_window()
? ? ? ??pos?+=?i*500? ?#?每次下滾500
? ? ? ??js?=?"document.documentElement.scrollTop=%d"?%?pos
? ? ? ??driver.execute_script(js)

? ? ? ?第四個(gè)方法百度圖片解碼下載及線程實(shí)現(xiàn)
? ? ? ?參考文章：Python 3 多線程下載百度圖片搜索結(jié)果

? ? ? ?最近看了一些優(yōu)秀的文章，真心感覺自己縷蟻一般，太過渺小，還有好多知識(shí)需要學(xué)習(xí)啊！加油~而且不知道現(xiàn)在自己做的這些東西是否有用？心理的幾個(gè)想法一直還未實(shí)現(xiàn)，挺擔(dān)心的。還是自己博客描述那句話：
? ? ? ?無知的自己 · 樂觀的面對(duì) · 謙遜的學(xué)習(xí) · 低調(diào)的前行 · 更要會(huì)生活
? ? ? ?希望文章對(duì)你有所幫助，如果有錯(cuò)誤或不足之處，還請(qǐng)海涵~
? ? ??（By:Eastmount 2015-12-07 清晨6點(diǎn) ?http://blog.csdn.net/eastmount/）??

總結(jié)

以上是生活随笔為你收集整理的[python爬虫] 爬取图片无法打开或已损坏的简单探讨的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Python简单实现基于VSM的余弦相似
下一篇： [python学习] 专题八.多线程编程