日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫笔记之邮箱混淆

發布時間:2024/1/18 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫笔记之邮箱混淆 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

 

一、為什么需要郵箱混淆

先來解釋一下什么是郵箱混淆,郵箱混淆就是對頁面上的郵箱進行處理,使用JS加密、HTML隱藏元素干擾、圖片顯示等方式增加爬蟲獲取的難度。很多人都有過這種體驗,當在網絡上留下自己的郵箱之后,過不了多久這個郵箱就會收到一堆亂七八糟的垃圾郵件,都是一些廣告、詐騙信息等。這是因為每時每刻都有爬蟲在掃描互聯網上的郵箱對其推送垃圾信息,應對這種情況,一般會有兩種應對策略,一種就是盡量不在網絡上留下自己的郵箱,這種辦法屬于鴕鳥政策,因為害怕所以就逃避不去面對這個問題,這個解決方案不大好。另一種辦法就是雖然留下郵箱,但是刻意去增加爬蟲獲取信息的難度同時盡量不去增加人獲取信息的難度,即盡量讓人閱讀友好但程序解析困難。本篇文章主要圍繞第二種方式闡述增加爬蟲獲取郵箱難度的幾種方法。

雖然本文是在講郵箱混淆,但這個問題其實可以抽象為短文本如何反爬,即如何保護用戶的重要信息字段不被爬蟲獲取,這些字段也可以是手機號、QQ號、居住地等等。

 

二、如何增加爬蟲獲取信息難度

2.1 留郵箱時破壞格式

對于增加爬蟲獲取郵箱的難度,大致可分為兩類,一種是留下郵箱的人在留的過程中對其格式破壞增加爬蟲識別難度,比如我的郵箱是foo@bar.com,那么我留下郵箱的時候就會留下比如foo#bar.com,這種是比較流行的格式,人一看就知道是個郵箱地址,但是就是太過于簡單人一看就知道是郵箱地址,爬蟲也能,對于這種格式的,爬蟲只需要多加一個模式匹配即可兼容。那好吧,現在為了增加爬蟲識別的難度?

總結

以上是生活随笔為你收集整理的爬虫笔记之邮箱混淆的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。