日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python爬虫-代理池-爬取代理入库并测试代理可用性

發布時間:2024/1/17 python 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬虫-代理池-爬取代理入库并测试代理可用性 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目的:建立自己的代理池。可以添加新的代理網站爬蟲,可以測試代理對某一網址的適用性,可以提供獲取代理的 API。

整個流程:爬取代理 ----> 將代理存入數據庫并設置分數 ----> 從數據庫取出代理并檢測 ----> 根據響應結果對代理分數進行處理 ----> 從 API 取出高分代理 ----> 用高分代理爬取目標網站?

分析:

1、爬蟲類的編寫:負責抓取代理并返回。

  • 因為不同的代理網站的網頁結構不同,所以需要單獨為每一個代理網頁寫爬蟲。
  • 調用每個爬取方法,依次返回結果。  

2、數據庫類的編寫:負責代理的存取與代理分數的設置。

  • 判斷待存入代理是否存在,不存在便存入數據庫。
  • 將代理存入數據庫,首次入庫的代理分數設置為100。
  • 代理測試失敗時,代理分數做相應的扣除,分數低于指定值時從數據庫中移除。代理測試成功時,將代理分數重新設置為100。
  • 需要使用代理時,從數據庫中隨機取出高分代理。

3、保存類的編寫:負責執行爬取,并將結果存入數據庫。

  • 判斷數據庫是否已經達到滿足值,根據返回值決定是否執行爬取。
  • 將爬取得到的結果存入數據庫

4、測試代理類的編寫:負責測試代理對目標網站的可用性。

  • 用每一個代理爬取目標網站,根據響應狀態碼對代理分數進行設置。

5、提取代理 API 的編寫:負責提供獲取代理信息的接口。

具體實現:

1、Crawler:

2、RedisClient:

3、Saver:

4、Tester:

5、API:

?

總結:這里我只爬取了兩個代理網站的代理,西刺和快代理,可以在 Crawler 類中添加名稱以 crwal_ 開始的方法來擴充。詳細代碼我放到 Github上了,https://github.com/ysl125963/proxy-pool

轉載于:https://www.cnblogs.com/yangshaolun/p/10932846.html

總結

以上是生活随笔為你收集整理的Python爬虫-代理池-爬取代理入库并测试代理可用性的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。