日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > Nginx >内容正文

Nginx

Nginx设置防爬虫策略

發布時間:2024/3/26 Nginx 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Nginx设置防爬虫策略 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

有助于網站的爬蟲可以提升網站排名,比如百度蜘蛛。但有些爬蟲對服務器惡意獲取網站信息,不遵守robots規則,我們需要進行攔截??梢越鼓承︰ser Agent抓取網站。

  • 新建配置配置文件

(例如進入到nginx安裝目錄下的conf目錄,創建: agent_deny.conf)

#禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403; }#禁止指定UA及UA為空的訪問 if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/| FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot| CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench| Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib| lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1| YandexBot|FlightDeckReports|Linguee Bot|^$" ) {return 403; }
  • 然后,在網站相關配置中的 server段插入如下代碼:
include agent_deny.conf;

  • 重啟nginx:
/usr/local/nginx/sbin/nginx -s reload
  • 測試

使用curl -A 模擬抓取即可,比如:

curl -I -A 'YYSpider' www.haoeasy.cn

結果

[root@izwz93bcx7adgtozg4rvanz conf]# curl -I -A 'YYSpider' www.haoeasy.cn HTTP/1.1 403 Forbidden Server: nginx/1.12.0 Date: Wed, 24 Apr 2019 11:35:21 GMT Content-Type: text/html Content-Length: 169 Connection: keep-alive

模擬UA為空的抓取:

curl -I -A' ' www.haoeasy.cn

結果

[root@izwz93bcx7adgtozg4rvanz conf]# curl -I -A' ' www.haoeasy.cn HTTP/1.1 403 Forbidden Server: nginx/1.12.0 Date: Wed, 24 Apr 2019 11:36:06 GMT Content-Type: text/html Content-Length: 169 Connection: keep-alive

模擬百度蜘蛛的抓取:

curl -I -A 'Baiduspider' www.haoeasy.cn [root@izwz93bcx7adgtozg4rvanz conf]# curl -I -A 'Baiduspider' www.haoeasy.cn HTTP/1.1 200 OK Server: nginx/1.12.0 Date: Wed, 24 Apr 2019 11:36:47 GMT Content-Type: text/html Content-Length: 612 Last-Modified: Fri, 12 Apr 2019 13:49:36 GMT Connection: keep-alive ETag: "5cb09770-264" Accept-Ranges: bytes
  • UA類型
FeedDemon 內容采集 BOT/0.1 (BOT for JCE) sql注入 CrawlDaddy sql注入 Java 內容采集 Jullo 內容采集 Feedly 內容采集 UniversalFeedParser 內容采集 ApacheBench cc攻擊器 Swiftbot 無用爬蟲 YandexBot 無用爬蟲 AhrefsBot 無用爬蟲 YisouSpider 無用爬蟲(已被UC神馬搜索收購,此蜘蛛可以放開!) jikeSpider 無用爬蟲 MJ12bot 無用爬蟲 ZmEu phpmyadmin 漏洞掃描 WinHttp 采集cc攻擊 EasouSpider 無用爬蟲 HttpClient tcp攻擊 Microsoft URL Control 掃描 YYSpider 無用爬蟲 jaunty wordpress爆破掃描器 oBot 無用爬蟲 Python-urllib 內容采集 Indy Library 掃描 FlightDeckReports Bot 無用爬蟲 Linguee Bot 無用爬蟲

總結

以上是生活随笔為你收集整理的Nginx设置防爬虫策略的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。