日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python美女源代码_python程序员爬取百套美女写真集,同样是爬虫,他为何如此突出...

發布時間:2023/12/10 python 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python美女源代码_python程序员爬取百套美女写真集,同样是爬虫,他为何如此突出... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python爬蟲

用python爬蟲是一件非常使人愉快的事情,圖片、數據、小視頻一切皆可爬取,可是我們會經常發現下載圖片的時候會非常慢,難以忍受。

PS注意

注意:很多人學Python過程中會遇到各種煩惱問題,沒有人幫答疑容易放棄。為此小編建了個Python全棧免費答疑.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,不懂的問題有老司機解決里面還有最新Python教程項目可拿,,一起相互監督共同進步!

我們都知道一個人做事必然沒有十個人做事快,那一個進程速度慢,用十個進程就好了呀。所以今天要跟大家分享一個多進程爬蟲的制作。(GIL的存在導致Python的多線程點有坑)

大家應該知道在多進程中,進程之間是不能相互通信的,這就有一個問題出現了!多個進程怎么知道哪些需要爬取、哪些已經被爬取了?

這就涉及到隊列了,如果需要更為穩定健壯的隊列,應該使用Celery這一類的專用消息傳遞工具,不過為了簡便,這次我們使用MongoDB。

構建思路

好了!先來理一下思路:每個進程需要知道哪些URL爬取過了、哪些URL需要爬取!我們來給每個URL設置兩種狀態:

outstanding:等待爬取的URL

complete:爬取完成的URL

那么失敗的URL的怎么辦呢?我們在增加一種狀態:

processing:正在進行的URL

嗯!當一個所有初始的URL狀態都為outstanding;當開始爬取的時候狀態改為:processing;爬取完成狀態改為:complete;失敗的URL重置狀態為:outstanding。為了能夠處理URL進程被終止的情況、我們設置一個計時參數,當超過這個值時;我們則將狀態重置為outstanding。

接下來看代碼部分

首先我們需要一個模塊:datetime(這個模塊比內置time模塊要好使一點)

下面是隊列的代碼:

代碼1

代碼2

代碼3

好了,隊列我們做好了,下面是獲取所有頁面的代碼。

下面就是多進程+多線程的下載代碼了:

好啦!一個多進程多線的爬蟲就完成了。(其實可以設置一下MongoDB,然后調整一下連接配置,在多臺機器上跑哦!!嗯,就是超級簡化版的分布式爬蟲了,雖然很是簡陋。)

大家可以參考上面代碼,單獨處理圖片地址試試(就是多個進程直接下載圖片)應該八分鐘能下載100套圖~

當然還有一種加速的方法叫做“異步”!因為爬蟲大部分時間都是在等待response中!‘異步’則能讓程序在等待response的時間去做的其他事情,當然也會復雜許多。另外要注意:很多人學Python過程中會遇到各種煩惱問題,沒有人幫答疑容易放棄。為此小編建了個Python全棧免費答疑.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,不懂的問題有老司機解決里面還有最新Python教程項目可拿,,一起相互監督共同進步!

本文的文字及圖片來源于網絡加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。

總結

以上是生活随笔為你收集整理的python美女源代码_python程序员爬取百套美女写真集,同样是爬虫,他为何如此突出...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。