“盗”亦有道,关于robots协议
robots.txt
robots協(xié)議(全名為“網(wǎng)絡爬蟲排除標準”)(Robots Exclusion Protocol)網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
對于robots協(xié)議如何遵守,當前較為普遍的觀點是:
對于小程序這樣爬取量少的小型爬蟲,可以無視robots協(xié)議。(我們編程愛好者知道這一點就足夠了)
一般對于像搜索引擎這樣,對全網(wǎng)進行爬取的大型爬蟲,如果無視robots協(xié)議是有法律風險的。
robots協(xié)議一般位于網(wǎng)站的根目錄之下,我們要查看某個網(wǎng)站的robots協(xié)議,可以在該網(wǎng)站的根目錄的url后面加"/robots.txt"。
例如:(以下是幾個知名網(wǎng)站的robots協(xié)議地址)
http://www.baidu.com/robots.txt
http://www.qq.com/robots.txt
http://www.sina.com/robots.txt
如果網(wǎng)站沒有robots協(xié)議,就說明其默許任何爬蟲對其網(wǎng)站信息進行爬取(這樣也有好處,可以便于所有搜索引擎將你的網(wǎng)站上的信息提供給每一個人)
如何理解robots協(xié)議的內(nèi)容?
我們訪問一個含有robots協(xié)議的網(wǎng)頁,
User-agent: 后面是所限制的爬蟲的名稱,如果是一個"*"號,則表示針對所有爬蟲
而后面的Disallow則是限制的內(nèi)容,"/"表示根目錄
我們訪問鏈家網(wǎng)的robots協(xié)議(如下):
?
User-agent: Baiduspider Allow:/User-agent: Googlebot Allow:/User-agent: 360Spider Allow:/User-agent: haosouspider Allow:/User-agent: bingbot Allow:/User-agent: msnbot Allow:/User-agent: msnbot-media Allow:/User-agent: Sosospider Allow:/User-agent: Sogou News Spider Allow:/User-agent: Yahoo! Slurp China Allow:/User-agent: Yahoo! Allow:/User-agent: YoudaoBot Allow:/User-agent: YodaoBot Allow:/User-agent: Sogou News Spider Allow:/User-agent: bingbot Allow:/User-agent: YisouSpider Allow:/User-agent: ia_archiver Allow:/User-agent: EasouSpider Allow:/User-agent: JikeSpider Allow:/User-agent: EtaoSpider Allow:/User-agent:* Disallow:/什么意思呢?意思就是以上列舉的爬蟲是“友好爬蟲”,鏈家網(wǎng)對這些爬蟲允許其爬取所有資源,而對于非友好爬蟲,則禁止其爬取任何資源(但是小程序除外,可以無視robots協(xié)議,只要不把數(shù)據(jù)用作商業(yè)用途即可)
?
轉(zhuǎn)載于:https://www.cnblogs.com/Shiko/p/10827585.html
與50位技術專家面對面20年技術見證,附贈技術全景圖總結(jié)
以上是生活随笔為你收集整理的“盗”亦有道,关于robots协议的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: addShutdownHook钩子
- 下一篇: shell脚本基本命令1