robots.txt文件的作用及写法 (搜索引擎)
robots其實就是指Robots協(xié)議,Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
而承載這些協(xié)議的文件就是robots.txt文件,那么robots.txt文件到底有啥用途,robots協(xié)議應(yīng)該怎么寫,有哪些注意事項,在這本文將詳細跟大家介紹。
前言:
Robots.txt文件的重要性
robots.txt是搜索引擎蜘蛛訪問網(wǎng)站時要查看的第一個文件,并且會根據(jù)robots.txt文件的內(nèi)容來爬行網(wǎng)站。在某種意義上說,它的一個任務(wù)就是指導(dǎo)蜘蛛爬行,減少搜索引擎蜘蛛的工作量。
當搜索引擎蜘蛛訪問網(wǎng)站時,它會首先檢查該站點根目錄下是否存在robots.txt文件,如果該文件存在,搜索引擎蜘蛛就會按照該文件中的內(nèi)容來確定爬行的范圍;如果該文件不存在,則所有的搜索引擎蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。
通常搜索引擎對網(wǎng)站派出的蜘蛛是有配額的,多大規(guī)模的網(wǎng)站放出多少蜘蛛。如果我們不配置robots文件,那么蜘蛛來到網(wǎng)站以后會無目的的爬行,造成的一個結(jié)果就是,需要它爬行的目錄,沒有爬行到,不需要爬行的,也就是我們不想被收錄的內(nèi)容卻被爬行并放出快照。所以robots文件對于我們做網(wǎng)站優(yōu)化來說具有很重要的影響。
網(wǎng)站沒有Robots.txt文件的弊端
如果網(wǎng)站中沒有robots.txt文件,則網(wǎng)站中的程序腳本、樣式表等一些和網(wǎng)站內(nèi)容無關(guān)的文件或目錄即使被搜索引擎蜘蛛爬行,也不會增加網(wǎng)站的收錄率和權(quán)重,只會浪費服務(wù)器資源;搜索引擎派出的蜘蛛資源也是有限的,我們要做的應(yīng)該是盡量讓蜘蛛爬行網(wǎng)站重點文件、目錄,最大限度的節(jié)約蜘蛛資源。
Robots.txt文件的存放位置
網(wǎng)站根目錄下,通過“域名/robots.txt”能正常訪問即可,如http://域名/robots.txt
?
一、robots.txt文件的含義,robots.txt有什么作用
前面有提到,這個文本文件承載著robots協(xié)議,它告訴所有搜索引擎本網(wǎng)站哪些頁面可以被抓取,哪些頁面禁止抓取。這樣做有兩方面的意義:
1.保護隱私。有些頁面信息不想或者說不能讓外界看到,單搜索引擎并不知道這些情況,它還是會照常抓取、展現(xiàn)。如果我們通過設(shè)置robots做了限制,搜索引擎蜘蛛就會放棄抓取,外界就不能通過搜索引擎了解到這些隱秘信息。
2.調(diào)節(jié)頁面抓取量。我們都知道每個網(wǎng)站蜘蛛抓取的配額都是有限的,如果我們通過robots.txt文件禁止一些不重要的頁面被抓取,那么就節(jié)約了配額,讓那些重要的頁面得到更多的抓取機會。
二、robots.txt寫法詳細
1.允許所有搜索引擎訪問所有目錄
User-agent: *Allow: /
PS:這里的*表示所有。
2.禁止所有搜索引擎訪問所有目錄
User-agent: *
Disallow: /
3.禁止爬蟲訪問網(wǎng)站中的某些目錄:
User-agent: *
Disallow: /123
禁止爬蟲訪問/123開頭的所有文件,如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取
User-agent: *Disallow: /123/
禁止爬蟲訪問/123/目錄下面的所有文件。
4.禁止爬蟲訪問某一類文件:
User-agent: *
Disallow: /*.css$ 禁止訪問所有css結(jié)尾的文件
Disallow: /*.js$ ?禁止訪問所有js結(jié)尾的文件
Disallow: /*.php$ 禁止訪問所有php結(jié)尾的文件
Disallow: /123/*.jpg$ 禁止訪問/123/目錄下的jpg結(jié)尾的文件
PS:*表示所有,$表示結(jié)尾,上面的漢字不用寫進robots去!!!
5.禁止訪問網(wǎng)站中的動態(tài)頁面:
User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止訪問/123/目錄下的動態(tài)頁面
PS:?表示動態(tài)路徑,*表示所有。
6.禁止訪問某些字母開頭的目錄
可以巧用這個技巧來隱藏我們網(wǎng)站的一些目錄,例如網(wǎng)站后臺。假設(shè)www.vipshan.com的后臺目錄是/abcdef/可以這樣寫:
User-agent: *Disallow: /abc*
總結(jié)
以上是生活随笔為你收集整理的robots.txt文件的作用及写法 (搜索引擎)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 淘宝网哥弟女装评测替换
- 下一篇: ppt模板下载keyppt.cn