如何检测爬虫 IP
這篇文章我們將詳細介紹如何識別爬蟲 ip。
我們在網站運營的時候,經常有各種各樣的爬蟲來光顧,有好的爬蟲,例如:搜索引擎爬蟲、營銷類的爬蟲、屏幕快照類爬蟲、監控類爬蟲、信息流類爬蟲、鏈接檢查類爬蟲、工具類爬蟲、速度測試類爬蟲、漏洞類爬蟲。惡意的爬蟲,例如:抓取類爬蟲、偽造爬蟲等。
我們將爬蟲分為兩類,但也不是絕對的,有一些搜索引擎爬蟲在國內沒什么問題,但是在國外由于過度抓取,而被列入黑名單。而被站長加入黑名單,所以最終還是要根據自己的實際情況。
如何識別爬蟲ip
我們經常在檢查日志的時候,看到 User-agent 是爬蟲的,但是 IP 不確定是不是這個爬蟲的 IP,這個時候,我們需要查詢爬蟲的IP地址,我們可以直接到爬蟲識別這個網站上查詢。
首先我們點擊首頁上的爬蟲查詢,之后輸入ip地址,就可以看到是不是真實的爬蟲,下面是示例:
例如,我們輸入:116.179.32.100就是百度蜘蛛的 IP 地址,截圖如下:
同時還可以通過查詢的結果始于什么類別,是否遵守 robots.txt 協議等,有了這樣一個工具,偽造爬蟲也逃不過你的火眼金睛。
例如:下面是一個偽造百度蜘蛛的 IP 地址,通過查詢結果如下:
通過上圖可以看出不僅查詢出了偽造百度蜘蛛,還可以看到最近活躍時間,可以為站長提供很好的參考作用。
通過上面的方法查詢之后,基本就可以檢查出來爬蟲的IP是否正確,即使偽造的爬蟲IP也可以被我們精準識別出來。
搜索引擎爬蟲類目下面也整理出了各種各樣爬蟲的 User-agent,這樣站長通過 User-agent + 爬蟲 IP 識別的方式,就可以檢測爬蟲。
總結
這篇文章主要介紹了如何通過爬蟲識別這個工具精準識別爬蟲,同時也介紹了如何查找各類爬蟲的 UA(User-agent),為我們的網站運營如虎添翼。
總結
- 上一篇: SP和Fuction的关系
- 下一篇: java集合数组,数组小到大排序,数组大