日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

robots.txt文件的作用及写法 (搜索引擎)

發(fā)布時間:2024/1/1 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 robots.txt文件的作用及写法 (搜索引擎) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

robots其實就是指Robots協(xié)議,Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

而承載這些協(xié)議的文件就是robots.txt文件,那么robots.txt文件到底有啥用途,robots協(xié)議應(yīng)該怎么寫,有哪些注意事項,在這本文將詳細跟大家介紹。

前言:

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛訪問網(wǎng)站時要查看的第一個文件,并且會根據(jù)robots.txt文件的內(nèi)容來爬行網(wǎng)站。在某種意義上說,它的一個任務(wù)就是指導(dǎo)蜘蛛爬行,減少搜索引擎蜘蛛的工作量。

當搜索引擎蜘蛛訪問網(wǎng)站時,它會首先檢查該站點根目錄下是否存在robots.txt文件,如果該文件存在,搜索引擎蜘蛛就會按照該文件中的內(nèi)容來確定爬行的范圍;如果該文件不存在,則所有的搜索引擎蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。

通常搜索引擎對網(wǎng)站派出的蜘蛛是有配額的,多大規(guī)模的網(wǎng)站放出多少蜘蛛。如果我們不配置robots文件,那么蜘蛛來到網(wǎng)站以后會無目的的爬行,造成的一個結(jié)果就是,需要它爬行的目錄,沒有爬行到,不需要爬行的,也就是我們不想被收錄的內(nèi)容卻被爬行并放出快照。所以robots文件對于我們做網(wǎng)站優(yōu)化來說具有很重要的影響。

網(wǎng)站沒有Robots.txt文件的弊端

如果網(wǎng)站中沒有robots.txt文件,則網(wǎng)站中的程序腳本、樣式表等一些和網(wǎng)站內(nèi)容無關(guān)的文件或目錄即使被搜索引擎蜘蛛爬行,也不會增加網(wǎng)站的收錄率和權(quán)重,只會浪費服務(wù)器資源;搜索引擎派出的蜘蛛資源也是有限的,我們要做的應(yīng)該是盡量讓蜘蛛爬行網(wǎng)站重點文件、目錄,最大限度的節(jié)約蜘蛛資源。

Robots.txt文件的存放位置

網(wǎng)站根目錄下,通過“域名/robots.txt”能正常訪問即可,如http://域名/robots.txt

?

一、robots.txt文件的含義,robots.txt有什么作用

前面有提到,這個文本文件承載著robots協(xié)議,它告訴所有搜索引擎本網(wǎng)站哪些頁面可以被抓取,哪些頁面禁止抓取。這樣做有兩方面的意義:

1.保護隱私。有些頁面信息不想或者說不能讓外界看到,單搜索引擎并不知道這些情況,它還是會照常抓取、展現(xiàn)。如果我們通過設(shè)置robots做了限制,搜索引擎蜘蛛就會放棄抓取,外界就不能通過搜索引擎了解到這些隱秘信息。

2.調(diào)節(jié)頁面抓取量。我們都知道每個網(wǎng)站蜘蛛抓取的配額都是有限的,如果我們通過robots.txt文件禁止一些不重要的頁面被抓取,那么就節(jié)約了配額,讓那些重要的頁面得到更多的抓取機會。

二、robots.txt寫法詳細

1.允許所有搜索引擎訪問所有目錄

User-agent: *
Allow: /

PS:這里的*表示所有。

2.禁止所有搜索引擎訪問所有目錄

User-agent: *
Disallow: /

3.禁止爬蟲訪問網(wǎng)站中的某些目錄:

User-agent: *
Disallow: /123

禁止爬蟲訪問/123開頭的所有文件,如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取

User-agent: *
Disallow: /123/

禁止爬蟲訪問/123/目錄下面的所有文件。

4.禁止爬蟲訪問某一類文件:

User-agent: *
Disallow: /*.css$ 禁止訪問所有css結(jié)尾的文件
Disallow: /*.js$ ?禁止訪問所有js結(jié)尾的文件
Disallow: /*.php$ 禁止訪問所有php結(jié)尾的文件
Disallow: /123/*.jpg$ 禁止訪問/123/目錄下的jpg結(jié)尾的文件

PS:*表示所有,$表示結(jié)尾,上面的漢字不用寫進robots去!!!

5.禁止訪問網(wǎng)站中的動態(tài)頁面:

User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止訪問/123/目錄下的動態(tài)頁面

PS:?表示動態(tài)路徑,*表示所有。

6.禁止訪問某些字母開頭的目錄

可以巧用這個技巧來隱藏我們網(wǎng)站的一些目錄,例如網(wǎng)站后臺。假設(shè)www.vipshan.com的后臺目錄是/abcdef/可以這樣寫:

User-agent: *
Disallow: /abc*

總結(jié)

以上是生活随笔為你收集整理的robots.txt文件的作用及写法 (搜索引擎)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。