當前位置：首頁 > 编程语言 > python >内容正文

python

python项目之站长素材爬取

發布時間：2025/3/15 python 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 python项目之站长素材爬取小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、學習資源

二、知識點介紹

1、xpath使用

??2、xpath基本語法

?3、案例演示

三、項目詳細講解?

1、分析

?2、步驟

????????（1）請求對象定制

? ? ? ? （2）獲取響應數據

? ? ? ? （3）下載數據

?四、源代碼

一、學習資源

????????尚硅谷Python爬蟲教程小白零基礎速通（含python基礎+爬蟲案例）_嗶哩嗶哩_bilibili???這位老師講的很有激情，并知識點和邏輯清晰，強烈推薦

二、知識點介紹

1、xpath使用

安裝詳情請參考往期文章：

xpath安裝與下載_前景-CSDN博客一、下載安裝連接如下鏈接：https://pan.baidu.com/s/1jYaugFBjxxYyXJWCQ_R5Rw提取碼：9d5u二、安裝①打開chrome瀏覽器②點擊右上角小圓點③更多工具④擴展程序⑤拖拽xpath文件插件到擴展程序中⑥如果crx文件失效，需要將后綴修改為zip⑦再次拖拽⑧關閉瀏覽器重新打開⑨ctra+shift+x⑩出現小黑框...https://blog.csdn.net/qq_41404557/article/details/122567674安裝lxml庫_前景-CSDN博客一、找到python的安裝位置二、打開命令行窗口，進入文件夾的位置，安裝到scripts文件夾里面如果出現如下圖，則安裝成功https://blog.csdn.net/qq_41404557/article/details/122567976

?2、xpath基本語法

?3、案例演示

# coding=utf-8 from lxml import etree#xpath解析 #(1)解析本地文件 etree.parse #(2)解析服務器文件 response.read().decode('utf-8')****** etree.HTML()#xpath解析本地文件 tree = etree.parse('070_解析_xpath的基本使用.html')#tree.xpath('xpath路徑')#查找ul下面的li #li_list = tree.xpath('//ul/li/text()')#查找所有有id的屬性的li標簽 #text()獲取標簽中的內容 #li_list = tree.xpath('//ul/li[@id]/text()')#找到id為l1的li標簽注意引號的問題單引號里面的字符串要加雙引號 #li_list = tree.xpath('//ul/li[@id="l1"]/text()')#查找到id為l1的li標簽的class的屬性值 # li = tree.xpath('//ul/li[@id="l1"]/@class')#查詢id中包含l的li標簽 #li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')#查詢id的值以l開頭的li標簽 #li_list = tree.xpath('//ul/li[starts-with(@id,"c")]/text()')#查詢id為l1和class為c1的 #li_list = tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')li_list = tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()') #判斷列表的長度 print(li_list) print(len(li_list))

三、項目詳細講解?

1、分析

??????????①首先要獲取url，但是因為要獲取前十頁的數據，url是一個變量，通過對網頁的檢查可以發現網頁的url有規律。

????????

?2、步驟

????????（1）請求對象定制

? ? ? ? ? ? ? ?解決了url的問題之后，請求對象的定制就變得簡單了，就是把之前的內容進行了封裝

? ? ? ? （2）獲取響應數據

? ? ? ? ? ? ? ? 相應的獲取響應數據也是把之前的代碼進行封裝

????????

? ? ? ? （3）下載數據

? ? ? ? ? ? ? ? ? ?下載圖片需要用到urllib庫，此時需要圖片的地址和文件的名字

????????????????

? ? ? ? ? ? ? ? 首先解析獲取到的服務器文件，然后通過xpath去查找圖片的地址和文件的名字

? ? ? ? ? ? ? ? 然后通過遍歷的方式下載圖片

? ? ? ? ?文件內容：

?四、源代碼

# coding=utf-8 #(1)請求對象的定制 #（2）獲取網頁源碼 #（3）下載#需求下載的是前十頁的圖片 #https://sc.chinaz.com/tupian/qinglvtupian.html #https://sc.chinaz.com/tupian/qinglvtupian_page.html import urllib.request from lxml import etreedef create_request(page):#請求對象定制if (page == 1):url = 'https://sc.chinaz.com/tupian/qinglvtupian.html'else :url = 'https://sc.chinaz.com/tupian/qinglvtupian_'+str(page)+'.html'headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}request = urllib.request.Request(url=url,headers=headers)return requestdef get_content(request):#獲取網頁源碼response = urllib.request.urlopen(request)content = response.read().decode('utf-8')return contentdef down_load(content):#下載#下載圖片#urllib.request.urlretrieve('圖片地址','文件的名字')tree = etree.HTML(content)#解析服務器文件name_list = tree.xpath('//div[@id="container"]//a/img/@alt')#一般設計圖片的網站都會進行懶加載所以這里的圖片地址為src2src_list = tree.xpath('//div[@id="container"]//a/img/@src2')for i in range(len(name_list)):name = name_list[i]src = src_list[i]url = 'https:' + srcurllib.request.urlretrieve(url=url,filename='./loveImg/' +name + '.jpg')if __name__ == '__main__':start_page = int(input('請輸入起始頁碼'))end_page = int(input('請輸入結束頁碼'))for page in range(start_page,end_page+1):#(1)請求對象定制request = create_request(page)#獲取網頁源碼content = get_content(request)#(3)下載down_load(content)

? ? ? ? ?整體思路可以參考往期文章：

爬蟲項目之豆瓣電影排行榜前10頁_前景-CSDN博客豆瓣電影排行榜前十頁數據抓取（詳細分析講解）https://blog.csdn.net/qq_41404557/article/details/122600743

總結

以上是生活随笔為你收集整理的python项目之站长素材爬取的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python语言数据挖掘python语言
下一篇： Git 的特点—— Git 学习笔记 0

python

python项目之站长素材爬取

一、學習資源

二、知識點介紹

1、xpath使用

?2、xpath基本語法

?3、案例演示

三、項目詳細講解?

1、分析

?2、步驟

????????（1）請求對象定制

? ? ? ? （2）獲取響應數據

? ? ? ? （3）下載數據

?四、源代碼

總結

一、學習資源

1、xpath使用

?2、xpath基本語法

三、項目詳細講解?

1、分析

?2、步驟

?四、源代碼