日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ip在线代理网页联合早报_一次免费代理ip的爬取实战

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ip在线代理网页联合早报_一次免费代理ip的爬取实战 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我們在使用爬蟲的時候,會對代理ip有一定程度的需求。今天爬取的這個免費代理網站不是大家已經爬爛的西刺和66等代理網站,是我無意間發現的寶藏網站~

這個網站還是有一點小意思的。

注意到沒有,這里的ip地址被換成了圖片,而這個圖片長得似乎和驗證碼非常相似。定位ip地址元素發現,確實是圖片,并且是base64編碼的形式。

這樣我們就有了整體的思路,首先爬取網頁上圖片的base64編碼,將編碼解碼保存為圖片,接著利用OCR進行識別,將圖片中的ip提取。

爬取網頁

網頁上的這些元素爬取還是非常容易的,通過page參數控制翻頁,其他內容例如端口號,匿名度等代理的信息可以利用xpath或者其他方式來解析網頁得到。

當我們得到圖片的base64之后,需要將編碼解碼并保存為圖片。

def ip_img(img_base64,i):
img_data=base64.b64decode(img_base64)
with open ('ip/{}.jpg'.format(i),'wb') as f:
f.write(img_data)

OCR識別

我們將這些ip地址的圖片統一保存在ip文件夾內,來對每一張圖片進行OCR識別,識別的套路很簡單,和知網的驗證碼的方式相同,我們先把圖片轉換為灰度圖片,再進行簡單的二值化處理,得到新圖片效果如下所示。

但是使用tesserocr之后發現,這個黑白的二值圖片依然不能識別,我猜想是因為圖片大小的問題,于是我利用resize將圖片的長寬均增至三倍,這樣識別得到的結果便有模有樣了。

def ocr_ip(img):
image=Image.open(img)
image=image.resize((450,60))
image=image.convert('L')
threshold=127
table=[]
for i in range(256):
if i table.append(0)
else:
table.append(1)
image=image.point(table,'1')
result=tesserocr.image_to_text(image).replace('§','5').replace('$','8').replace('L','1').replace('i','1').replace(',','')
return result.replace('\n','')

上面還是進行了一些小小的處理,例如tesserocr會把“5”識別為“§”,把“1”識別為“L”等等,因此我使用replace做了結果的部分內容替換。

這樣,我們就可以獲取這樣一些免費的代理IP,再驗證有效性之后便可投入使用啦~

——END——

推薦閱讀

用Python來擲個色子~

用Python獲取可能是全網最全的杰尼龜表情包(第三彈)

總結

以上是生活随笔為你收集整理的ip在线代理网页联合早报_一次免费代理ip的爬取实战的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。