當前位置：首頁 >

“盗”亦有道，关于robots协议

發(fā)布時間：2025/3/20 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 “盗”亦有道，关于robots协议小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

robots.txt

robots協(xié)議（全名為“網(wǎng)絡爬蟲排除標準”）（Robots Exclusion Protocol）網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。

對于robots協(xié)議如何遵守，當前較為普遍的觀點是：

對于小程序這樣爬取量少的小型爬蟲，可以無視robots協(xié)議。（我們編程愛好者知道這一點就足夠了）

一般對于像搜索引擎這樣，對全網(wǎng)進行爬取的大型爬蟲，如果無視robots協(xié)議是有法律風險的。

robots協(xié)議一般位于網(wǎng)站的根目錄之下，我們要查看某個網(wǎng)站的robots協(xié)議，可以在該網(wǎng)站的根目錄的url后面加"/robots.txt"。

例如：（以下是幾個知名網(wǎng)站的robots協(xié)議地址）

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

http://www.sina.com/robots.txt

如果網(wǎng)站沒有robots協(xié)議，就說明其默許任何爬蟲對其網(wǎng)站信息進行爬取（這樣也有好處，可以便于所有搜索引擎將你的網(wǎng)站上的信息提供給每一個人）

如何理解robots協(xié)議的內(nèi)容？

我們訪問一個含有robots協(xié)議的網(wǎng)頁，

User-agent: 后面是所限制的爬蟲的名稱，如果是一個"*"號，則表示針對所有爬蟲

而后面的Disallow則是限制的內(nèi)容，"/"表示根目錄

我們訪問鏈家網(wǎng)的robots協(xié)議（如下）：

User-agent: Baiduspider Allow:/User-agent: Googlebot Allow:/User-agent: 360Spider Allow:/User-agent: haosouspider Allow:/User-agent: bingbot Allow:/User-agent: msnbot Allow:/User-agent: msnbot-media Allow:/User-agent: Sosospider Allow:/User-agent: Sogou News Spider Allow:/User-agent: Yahoo! Slurp China Allow:/User-agent: Yahoo! Allow:/User-agent: YoudaoBot Allow:/User-agent: YodaoBot Allow:/User-agent: Sogou News Spider Allow:/User-agent: bingbot Allow:/User-agent: YisouSpider Allow:/User-agent: ia_archiver Allow:/User-agent: EasouSpider Allow:/User-agent: JikeSpider Allow:/User-agent: EtaoSpider Allow:/User-agent:* Disallow:/

什么意思呢？意思就是以上列舉的爬蟲是“友好爬蟲”，鏈家網(wǎng)對這些爬蟲允許其爬取所有資源，而對于非友好爬蟲，則禁止其爬取任何資源（但是小程序除外，可以無視robots協(xié)議，只要不把數(shù)據(jù)用作商業(yè)用途即可）

轉(zhuǎn)載于:https://www.cnblogs.com/Shiko/p/10827585.html

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結(jié)

以上是生活随笔為你收集整理的“盗”亦有道，关于robots协议的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： addShutdownHook钩子
下一篇： shell脚本基本命令1

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

“盗”亦有道，关于robots协议

robots.txt

如何理解robots協(xié)議的內(nèi)容？

總結(jié)