爬虫笔记之邮箱混淆
一、為什么需要郵箱混淆
先來解釋一下什么是郵箱混淆,郵箱混淆就是對頁面上的郵箱進(jìn)行處理,使用JS加密、HTML隱藏元素干擾、圖片顯示等方式增加爬蟲獲取的難度。很多人都有過這種體驗(yàn),當(dāng)在網(wǎng)絡(luò)上留下自己的郵箱之后,過不了多久這個(gè)郵箱就會(huì)收到一堆亂七八糟的垃圾郵件,都是一些廣告、詐騙信息等。這是因?yàn)槊繒r(shí)每刻都有爬蟲在掃描互聯(lián)網(wǎng)上的郵箱對其推送垃圾信息,應(yīng)對這種情況,一般會(huì)有兩種應(yīng)對策略,一種就是盡量不在網(wǎng)絡(luò)上留下自己的郵箱,這種辦法屬于鴕鳥政策,因?yàn)楹ε滤跃吞颖懿蝗ッ鎸@個(gè)問題,這個(gè)解決方案不大好。另一種辦法就是雖然留下郵箱,但是刻意去增加爬蟲獲取信息的難度同時(shí)盡量不去增加人獲取信息的難度,即盡量讓人閱讀友好但程序解析困難。本篇文章主要圍繞第二種方式闡述增加爬蟲獲取郵箱難度的幾種方法。
雖然本文是在講郵箱混淆,但這個(gè)問題其實(shí)可以抽象為短文本如何反爬,即如何保護(hù)用戶的重要信息字段不被爬蟲獲取,這些字段也可以是手機(jī)號、QQ號、居住地等等。
二、如何增加爬蟲獲取信息難度
2.1 留郵箱時(shí)破壞格式
對于增加爬蟲獲取郵箱的難度,大致可分為兩類,一種是留下郵箱的人在留的過程中對其格式破壞增加爬蟲識別難度,比如我的郵箱是foo@bar.com,那么我留下郵箱的時(shí)候就會(huì)留下比如foo#bar.com,這種是比較流行的格式,人一看就知道是個(gè)郵箱地址,但是就是太過于簡單人一看就知道是郵箱地址,爬蟲也能,對于這種格式的,爬蟲只需要多加一個(gè)模式匹配即可兼容。那好吧,現(xiàn)在為了增加爬蟲識別的難度?
總結(jié)
- 上一篇: html百叶窗效果代码,纯CSS 3D百
- 下一篇: iloc与loc