當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

robots.txt文件里面怎样屏蔽蜘蛛

發(fā)布時(shí)間：2024/4/17 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了 robots.txt文件里面怎样屏蔽蜘蛛小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

robots.txt文件，是每個(gè)網(wǎng)站都可以用來跟，遵循robots協(xié)議的搜索引擎蜘蛛，進(jìn)行對(duì)話的一段代碼。

我們先來看一個(gè)列子，讓搜索引擎抓取所有的內(nèi)容，代碼如下：

User-agent: *
Allow: /
其中User-agent后面跟的是蜘蛛的名字，如果是所有的蜘蛛都遵守的話，那么就可以用*來代替所有的蜘蛛，如果只是針對(duì)某一蜘蛛的話，
那么只需要列出來這個(gè)蜘蛛的名字即可。如果不想讓蜘蛛來爬取，那么只需要將Allow修改為Disallow，禁止爬取即可，/后面跟的內(nèi)容就是
禁止或允許爬取的內(nèi)容。

而有時(shí)候蜘蛛爬取過于頻繁，那么我們需要添加Crawl-delay這個(gè)代碼，他的意思是告訴蜘蛛延時(shí)多少秒以后再來爬取，我們可以看下實(shí)例：

User-agent: *
Crawl-delay: 500

前面的內(nèi)容都一樣，不同的是Crawl-delay后面只能跟數(shù)字，而且只能是正整數(shù)。

我們常用的代碼還包括：User-agent、Disallow、Allow以及Crawl-delay等。

其實(shí)最好的辦法你還是嘗試下robots.txt文件的設(shè)置，在網(wǎng)站的robots.txt文件中加上如下內(nèi)容：
以百度蜘蛛為例

User-agent: Baiduspider
Disallow: /

　　這種方法如果不能完全屏蔽百度的爬蟲，也就是蜘蛛要是不遵守robots協(xié)議，我們才要想完全屏蔽百度的爬蟲，需要在.htaccess中加入一些語句才可以，下面介紹兩種方法。

　　方法1：

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F]

　　方法2：

SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot

Order Allow,Deny
Allow from all?

安徽育兒網(wǎng) http://www.ahyuer.com

轉(zhuǎn)載于:https://www.cnblogs.com/jincon/archive/2011/01/22/1941982.html

總結(jié)

以上是生活随笔為你收集整理的robots.txt文件里面怎样屏蔽蜘蛛的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。