日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

如何禁止网络爬虫频繁爬自己网站

發(fā)布時(shí)間:2024/4/17 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何禁止网络爬虫频繁爬自己网站 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

http://zhumeng8337797.blog.163.com/blog/static/100768914201261625145485/

轉(zhuǎn)自google中國(guó)網(wǎng)站管理員的博客?http://www.google.com.hk/ggblog/googlewebmaster-cn
robots.txt?文件對(duì)抓取網(wǎng)絡(luò)的搜索引擎漫游器(稱為漫游器)/*漫游器就是網(wǎng)絡(luò)爬蟲(chóng),或者搜索引擎機(jī)器人。隨便你怎么叫它。*/?或者進(jìn)行限制。這些漫游器是自動(dòng)的,在它們?cè)L問(wèn)網(wǎng)頁(yè)前會(huì)查看是否存在限制其訪問(wèn)特定網(wǎng)頁(yè)的?robots.txt?文件。如果你想保護(hù)網(wǎng)站上的某些內(nèi)容不被搜索引擎收入的話,robots.txt是一個(gè)簡(jiǎn)單有效的工具。這里簡(jiǎn)單介紹一下怎么使用它。

如何放置Robots.txt文件

robots.txt自身是一個(gè)文本文件。它必須位于域名的根目錄中并?被命名為"robots.txt"。位于子目錄中的?robots.txt?文件無(wú)效,因?yàn)槁纹髦辉谟蛎母夸浿胁檎掖宋募@?#xff0c;http://www.example.com/robots.txt?是有效位置,http://www.example.com/mysite/robots.txt?則不是。

這里舉一個(gè)robots.txt的例子:
User-agent:?*
Disallow:?/cgi-bin/
Disallow:?/tmp/
Disallow:?/~name/
使用?robots.txt?文件攔截或刪除整個(gè)網(wǎng)站?

要從搜索引擎中刪除您的網(wǎng)站,并防止所有漫游器在以后抓取您的網(wǎng)站,請(qǐng)將以下?robots.txt?文件放入您服務(wù)器的根目錄:
User-agent:?*
Disallow:?/
要只從?Google?中刪除您的網(wǎng)站,并只是防止?Googlebot?將來(lái)抓取您的網(wǎng)站,請(qǐng)將以下?robots.txt?文件放入您服務(wù)器的根目錄:User-agent:?Googlebot
Disallow:?/
每個(gè)端口都應(yīng)有自己的?robots.txt?文件。尤其是您通過(guò)?http?和?https?托管內(nèi)容的時(shí)候,這些協(xié)議都需要有各自的?robots.txt?文件。例如,要讓?Googlebot?只為所有的?http?網(wǎng)頁(yè)而不為?https?網(wǎng)頁(yè)編制索引,應(yīng)使用下面的?robots.txt?文件。
對(duì)于?http?協(xié)議?(http://yourserver.com/robots.txt):
User-agent:?*
Allow:?/
對(duì)于?https?協(xié)議?(https://yourserver.com/robots.txt):
User-agent:?*
Disallow:?/
允許所有的漫游器訪問(wèn)您的網(wǎng)頁(yè)
User-agent:?*
Disallow:

(另一種方法:?建立一個(gè)空的?"/robots.txt"?文件,?或者不使用robot.txt。)

使用?robots.txt?文件攔截或刪除網(wǎng)頁(yè)

您可以使用?robots.txt?文件來(lái)阻止?Googlebot?抓取您網(wǎng)站上的網(wǎng)頁(yè)。?例如,如果您正在手動(dòng)創(chuàng)建?robots.txt?文件以阻止?Googlebot?抓取某一特定目錄下(例如,private)的所有網(wǎng)頁(yè),可使用以下?robots.txt?條目:?

User-agent:?Googlebot
Disallow:?/private
要阻止?Googlebot?抓取特定文件類型(例如,.gif)的所有文件,可使用以下?robots.txt?條目:User-agent:?Googlebot
Disallow:?/*.gif$
要阻止?Googlebot?抓取所有包含???的網(wǎng)址(具體地說(shuō),這種網(wǎng)址以您的域名開(kāi)頭,后接任意字符串,然后是問(wèn)號(hào),而后又是任意字符串),可使用以下條目:User-agent:?Googlebot
Disallow:?/*?

盡管我們不抓取被?robots.txt?攔截的網(wǎng)頁(yè)內(nèi)容或?yàn)槠渚幹扑饕?#xff0c;但如果我們?cè)诰W(wǎng)絡(luò)上的其他網(wǎng)頁(yè)中發(fā)現(xiàn)這些內(nèi)容,我們?nèi)匀粫?huì)抓取其網(wǎng)址并編制索引。因此,網(wǎng)頁(yè)網(wǎng)址及其他公開(kāi)的信息,例如指?向該網(wǎng)站的鏈接中的定位文字,有可能會(huì)出現(xiàn)在?Google?搜索結(jié)果中。不過(guò),您網(wǎng)頁(yè)上的內(nèi)容不會(huì)被抓取、編制索引和顯示。

作為網(wǎng)站管理員工具的一部分,Google提供了robots.txt分析工具。它可以按照?Googlebot?讀取?robots.txt?文件的相同方式讀取該文件,并且可為?Google?user-agents(如?Googlebot)提供結(jié)果。我們強(qiáng)烈建議您使用它。?在創(chuàng)建一個(gè)robots.txt文件之前,有必要考慮一下哪些內(nèi)容可以被用戶搜得到,而哪些則不應(yīng)該被搜得到。?這樣的話,通過(guò)合理地使用robots.txt,?搜索引擎在把用戶帶到您網(wǎng)站的同時(shí),又能保證隱私信息不被收錄。

總結(jié)

以上是生活随笔為你收集整理的如何禁止网络爬虫频繁爬自己网站的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。