當前位置：首頁 > 编程语言 > python >内容正文

python

python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取（十六）

發布時間：2025/3/13 python 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取（十六）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python爬蟲之多線程圖蟲網數據爬取(十六)

發布時間：2019-05-14 10:11,

瀏覽次數：289

, 標簽：

Python

原創不易，轉載前請注明博主的鏈接地址：Blessy_Zhu

https://blog.csdn.net/weixin_42555080

本次代碼的環境：

運行平臺： Windows

Python版本： Python3.x

IDE： PyCharm

<>一、前言

今天要爬取的網站是圖蟲網 (網址：https://tuchong.com/explore/

)，這是一個個人非常喜歡的圖片分享展示和交流的平臺。上面的作品質量非常高，對于我這個攝影小白來說是一個非常不錯的學習和欣賞大家作品的優質平臺。沒有做廣告哦，只是純屬個人喜歡的推薦。本篇博文的主要內容是利用

隊列數據存取以及多線程爬蟲的方法爬取圖蟲網上面的圖片數據。好啦，ENOUGH TALK，LET‘S START IT！！！！！！！！！！！

<>二、思路過程

對于上面圖片上的題材，想必廣大宅男們肯定和我一樣，會毫不猶豫的選擇——風光。別問為什么，作為宅男，天天宅在家里，哪有時間旅游去欣賞自然風光。所以還不如下載一下圖片聊以慰藉。

好，繼續繼續！！！！！！

首先點開風光圖，一直下來，可以看到一個點擊加載更多的按鈕，這說明它的數據傳輸方式是AJAX。

接下里摁下F12，找到Network，點擊XHR，然后刷新，接著點擊加載更多發現通過AJAX傳過來的數據包就會又出現一個。可以看到這些發過來的數據包很有規律，它們的命名都是

posts?page={ }&count=20&order=weekly也就是只有page屬性的值在改變。

接下來看一下它的請求URL(Request URL)：

https://tuchong.com/rest/tags/風光/posts?page={}&count=20&order=weekly

，也是只有page屬性改變。這下子就太好了！！！

然后訪問Request URL，wonderful！！！！！！！！！！！拿到數據了，而且這個數據還是字典型的。那就更Easy了！！！

繼續探究，點開preview，可以看到，這些AJAX數據。

隨便點開一個，看看它里面的內容，這里面的內容幾乎是我們可見即可爬的全部數據，”但是如水三千，只取一瓢飲“，既然是只下載圖片，那么就只看一個屬性就可以：cover_image_src:

“https://photo.tuchong.com/397845/g/488047063.webp

”，可以看到他的值除了兩部分數字，其他都是固定的，這樣只需要搞懂那兩部分數字是干什么的就可以了。通過觀察可以看到，前一部分數字實際上就是屬性author_id的值，后一部分實際上就是屬性img_id的值，而這兩個值，通過字典的方式就可以獲取，這樣就可以拼接成一個完整的圖片下載地址了：

通過上面的過程，可以準確的找到一個完整數據包的訪問地址，每個完整數據包包括20個圖片信息。然后通過訪問數據包可以將圖片的下載地址進行拼接，從而最后實現圖片的下載。

思路已經清晰啦，接下來就開始爬取代碼的編寫吧！！！！

<>三、代碼及結果分析展示

<>3.1 queue相關知識

本次使用python中的queue，也就是隊列來模擬數據的存取過程。

首先對于基本爬蟲初期，可以簡單的使用到queue的知識可以如下所示：

1. 初始化： class Queue.Queue(maxsize) FIFO 先進先出 2. 包中的常用方法: - queue.qsize()

返回隊列的大小- queue.empty() 如果隊列為空，返回True,反之False - queue.full() 如果隊列滿了，返回True,

反之False- queue.full 與 maxsize 大小對應 - queue.get([block[, timeout]])

獲取隊列，timeout等待時間3. 創建一個“隊列”對象 import queue myqueue = queue.Queue(maxsize = 10)

4. 將一個值放入隊列中 myqueue.put(10) 5. 將一個值從隊列中取出 myqueue.get() 6. from queue import

Queue,這個數據包在Python3中是內置了，不需要安裝

<>3.2 多線程框架

首先先實現多線的框架：

import threading for queue import Queue class ThreadCrawl(threading.Thread):

def__init__(self, thread_name, page_queue, data_queue): # threading.Thread.

__init__(self) # 調用父類初始化方法 super(ThreadCrawl, self).__init__() self.threadName =

thread_name self.page_queue = page_queue self.data_queue = data_queue def run(

self): print(self.threadName + ' 啟動************') def main(): # 聲明一個隊列，使用循環在里面存入

100個頁碼 page_queue = Queue(100) for i in range(1,101): page_queue.put(i) # 采集結果(

等待下載的圖片地址) data_queue = Queue() # 記錄線程的列表 thread_crawl = [] # 每次開啟4個線程 craw_list

= ['采集線程1號','采集線程2號','采集線程3號','采集線程4號'] for thread_name in craw_list: c_thread =

ThreadCrawl(thread_name, page_queue, data_queue) c_thread.start() thread_crawl.

append(c_thread) # 等待page_queue隊列為空，也就是等待之前的操作執行完畢 while not page_queue.empty():

passif __name__ == '__main__': main()

運行結果：

線程已經開啟，在run方法中，補充爬取數據的代碼就好了,這個地方引入一個全局變量，用來標識爬取狀態

CRAWL_EXIT = False

CRAWL_EXIT = False class ThreadCrawl(threading.Thread): def __init__(self,

thread_name, page_queue): # threading.Thread.__init__(self) # 調用父類初始化方法 super(

ThreadCrawl, self).__init__() self.threadName = thread_name self.page_queue =

page_queue defrun(self): print(self.threadName + ' 啟動************') while not

CRAWL_EXIT: try: #global tag, url, img_format # 把全局的值拿過來 headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,

like Gecko) Chrome/63.0.3239.132 Safari/537.36', } # 隊列為空產生異常 page = self.

page_queue.get(block=False) # 從里面獲取值 spider_url =

'https://tuchong.com/rest/tags/%E8%87%AA%E7%84%B6/posts?page={}&count=20&order=weekly'

.format(page) print(spider_url) except: break timeout = 4 # 合格地方是嘗試獲取3次，3

次都失敗，就跳出while timeout > 0: timeout -= 1 try: with requests.Session() as s:

response= s.get(spider_url, headers=headers, timeout=3) json_data = response.

json() if json_data is not None: imgs = json_data["postList"] for i in imgs:

imgs= i["images"] for img in imgs: user_id = img["user_id"] img_id = img[

"img_id"] img_url = 'https://photo.tuchong.com/{}/f/{}.jpg'.format(user_id,

img_id) #self.data_queue.put(img_url) # 捕獲到圖片鏈接，之后，存入一個新的隊列里面，等待下一步的操作 title =

'download/' + str(img_id) response = requests.get(img_url) # 保存圖片名字有問題，不知道會不會重復

withopen(title + '.jpg', 'wb') as f: f.write(response.content) time.sleep(3)

break except Exception as e: print(e) if timeout <= 0: print('time out!')

然后在main函數中添加如下代碼：

...... while not page_queue.empty(): pass # 如果page_queue為空，采集線程退出循環 global

CRAWL_EXIT CRAWL_EXIT= True

結果如下：

<>四、總結

這篇文章是圖蟲網圖片數據的爬取，用到了隊列的思想存取數據，同時采用多線程提高速度。這篇文章就到這里了，歡迎大佬們多批評指正，也歡迎大家積極評論多多交流。

<>附完整代碼：

import threading from queue import Queue import requests import os import time

CRAWL_EXIT= False class ThreadCrawl(threading.Thread): def __init__(self,