日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python简单爬取斗图图片(自学第十天)

發(fā)布時(shí)間:2023/12/20 python 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python简单爬取斗图图片(自学第十天) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、前期準(zhǔn)備

(一).我們要爬取的頁面

1,我們要爬取的網(wǎng)站為:https://www.doutula.com/photo/list/?page=1

2,獲取請(qǐng)求頭,來模擬瀏覽器瀏覽,不讓網(wǎng)站直接就暴露我們是python,怎么獲取請(qǐng)求頭呢,很簡單,按f12(右鍵檢查)

很好,你已經(jīng)會(huì)了請(qǐng)求頭,那么現(xiàn)在就開始用工具把。

3,所以我們前期的代碼是這樣的:

def get_url(url): #我們的請(qǐng)求頭信息headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'} #定義一個(gè)main函數(shù) def main():for x in range(1,10): #定義一個(gè)循環(huán),設(shè)置我們要爬取的頁數(shù)url = 'https://www.doutula.com/photo/list/?page=%d'%xget_url(url) #函數(shù)調(diào)用if __name__ == '__main__':main()

二、獲取網(wǎng)頁的信息

(一),用requests來獲取我們頁面信息,安裝如下

? pip install?requests??-i https://pypi.tuna.tsinghua.edu.cn/simple?

(二),用etree來使用我們xpath

代碼為:

def get_url(url): #我們的請(qǐng)求頭信息headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}response =requests.get(url,headers=headers)#打印我們的信息print(response)response =requests.get(url,headers=headers)test = response.texthtml = etree.HTML(test)#定義一個(gè)main函數(shù) def main():for x in range(1,10): #定義一個(gè)循環(huán),設(shè)置我們要爬取的頁數(shù)url = 'https://www.doutula.com/photo/list/?page=%d'%xget_url(url) #函數(shù)調(diào)用if __name__ == '__main__':main()

(三),使用xpath來獲取我們的圖片和標(biāo)題

這里是網(wǎng)站放置圖片和文本的地方,我們使用xpath獲取到了整頁中所以圖片的地址和標(biāo)題

代碼如下:

img_url =html.xpath("//div[@class ='page-content text-center' ]//img[@class !='gif']")

(四)全部代碼

import requests from lxml import etree import os import re from urllib import request i = 1 def get_url(url):global iheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}response =requests.get(url,headers=headers)test = response.texthtml = etree.HTML(test)img_url =html.xpath("//div[@class ='page-content text-center' ]//img[@class !='gif']")for img in img_url:img_url1 = img.get('data-original')img_name = img.get('alt')img_name = re.sub(r'!@#$%^&*()~`,?\/','',img_name)suffix = os.path.splitext(img_url1)[1]filenme = img_name+suffix# print(filenme)print("正在下載:{}".format(filenme))request.urlretrieve(img_url1,'aaa/'+filenme)print("=" * 30)print("正在下載%d頁" % i)i += 1 def main():a = input("請(qǐng)輸入你要爬取的頁數(shù):")for x in range(1,a):url = 'https://www.doutula.com/photo/list/?page=%d'%xget_url(url)if __name__ == '__main__':main()

?

總結(jié)

以上是生活随笔為你收集整理的python简单爬取斗图图片(自学第十天)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。