python爬取京东商品图片_Python---爬取京东商城的图片
爬取京東商城的圖片
1.我們爬取數據時首先自己要明確需要什么,我們在爬取京東商城的圖片是首先要獲取url,打開京東網頁,點擊手機類型,選擇全部手機,觀察瀏覽器的地址欄的變化,發現url主要是有:https://list.jd.com/list.html?cat=9987,653,655&page=1,而page就是每頁的標志.
2.點擊F12,通過瀏覽器查看部分源代碼,尋找特需規律,我們發現每一頁開始都是從
開始的,以結束的,接著查看圖片的規律,,那我們就可以根據這個規律來寫正則表達式來過濾我們想要的信息。def craw(url, page):
# 1.獲取網頁的數據
html1 = urllib.request.urlopen(url).read()
html1 = str(html1)
# 2.通過正則得到每頁圖片的數據
pattrn1 = '
'result1 = re.compile(pattrn1).findall(html1)
image = result1[0]
# 3.在通過正則拿到每頁所有的圖片鏈接
pattrn2 = ''
imaglist = re.compile(pattrn2).findall(image)
# 4.遍歷所有的圖片鏈接,將圖片保存在本地,通過頁號和序號有序的排列
x = 1
for imageurl in imaglist:
imagename = "D:/python/image"+str(page)+str(x)+".jpg"
imageurl = "http://"+imageurl
try:
urllib.request.urlretrieve(imageurl, filename=imagename)
except urllib.error.URLError as e:
if hasattr(e, "code"):
x += 1
if hasattr(e, "reason"):
x += 1
x += 1
for i in range(1, 79):
url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)
craw(url, i)
其實爬蟲的關鍵是在于分析,我們要根據自己的需求對網頁及西寧分析,然后找出規律,寫出正確的正則表達式來過濾自己的信息,拿到想要的東西,在就是在請求的過程中我們需要注意許多細節。
總結
以上是生活随笔為你收集整理的python爬取京东商品图片_Python---爬取京东商城的图片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SentencePiece,subwor
- 下一篇: Python中的图像增强