就因为微信误删了几行字 公众号文章能被别家搜到了?
前天世超看到一個(gè)帖子說(shuō),在 Google 和 Bing能搜到微信公眾號(hào)的文章了。
呸,怎么可能。
世超一邊不信,一邊趕緊拿 Google 測(cè)試了一下,發(fā)現(xiàn)差評(píng)的文章確實(shí)有被收錄進(jìn)去。
嚯,要這樣下去,在百度里搜微信文章是不是也快了?
想必除了世超,很多網(wǎng)友應(yīng)該都挺期待這件事的。畢竟有時(shí)候搜資料,在百度和微信之間切來(lái)切去還挺麻煩的。
誰(shuí)想到世超還沒(méi)樂(lè)呵夠,騰訊馬上就辟謠了:
嗐,搞半天白高興一場(chǎng)。
不過(guò),今天世超還是想就這個(gè) robots 協(xié)議和大家探討一下。
因?yàn)檎f(shuō)起來(lái)你可能不信,我們?cè)诎俣壤锴八巡坏焦娞?hào)文章,后搜不到淘寶商品,都是因?yàn)?robots 協(xié)議。
robots 協(xié)議其實(shí)很簡(jiǎn)單,就是一個(gè)放在網(wǎng)站根目錄的文本,它寫明了搜索引擎可以/不可以收錄哪些信息。
微信公眾號(hào)的 robots 協(xié)議▼
有人可能會(huì)說(shuō),原來(lái)就是這幾行字害得互聯(lián)網(wǎng)不能互聯(lián)了?不不,這鍋robots 協(xié)議可不背。
robots 協(xié)議原本只是幫助搜索引擎更高效地收錄信息,只不過(guò)現(xiàn)在人們用著用著逐漸變了味。
這事還得從上世紀(jì) 90 年代初期說(shuō)起。
在搜索引擎誕生之前,人們要查資料,只能一個(gè)個(gè)進(jìn)入相關(guān)網(wǎng)頁(yè),效率非常低下。
后來(lái)有了搜索引擎,搜索引擎通過(guò)釋放網(wǎng)絡(luò)爬蟲(chóng)( 也可以叫蜘蛛),抓取各個(gè)網(wǎng)頁(yè)里的信息,并把這些信息收錄起來(lái)供大家查詢,這才極大提高了人們的效率。
但是,那會(huì)爬蟲(chóng)就跟小黑胖一樣,抓取信息來(lái)完全不挑食。
不管是沒(méi)用的垃圾信息,還是網(wǎng)站重要的內(nèi)部數(shù)據(jù),不分青紅皂白地一頓亂抓,全都要。
這種粗暴的抓法不僅降低了用戶搜到有用信息的效率,還會(huì)讓網(wǎng)頁(yè)的重要數(shù)據(jù)泄露,服務(wù)器過(guò)載無(wú)法運(yùn)行。
所以在 1994 年初,荷蘭有位網(wǎng)絡(luò)工程師提出了 robots 協(xié)議。
就好比賓館房間門上掛著的“ 請(qǐng)勿打擾 ”,“ 歡迎打掃 ”牌子,告訴阿姨哪些房間是可以打掃的。
每個(gè)網(wǎng)站的根目錄下也擺著一份 robots 協(xié)議,協(xié)議里告訴爬蟲(chóng):哪些東西你可以抓,哪些東西你不能抓。
雖說(shuō)這個(gè) robots 協(xié)議目前還沒(méi)被任何國(guó)際組織采納,沒(méi)有制約性,只能算個(gè)君子協(xié)議:你不聽(tīng),就不是個(gè)正人君子。
但它畢竟為了幫助搜索爬蟲(chóng)更有效地抓取對(duì)用戶有用的信息,更好促進(jìn)信息共享。所以在國(guó)外不管是早期的 altavista 還是后來(lái)的 Google 、必應(yīng),大家也都遵守著這一套協(xié)議。同樣 2012 年 11 月中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布了《 互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約 》,也規(guī)定了:搜索引擎要遵守網(wǎng)站的robots協(xié)議,但前提是這個(gè)robots 協(xié)議是合理的。
這個(gè)公約對(duì) 12 家發(fā)起單位生效,成員包括百度、騰訊、奇虎 360、搜狗、網(wǎng)易、新浪等。圖源百度百科▼
如今絕大多數(shù)搜索引擎的爬蟲(chóng)在訪問(wèn)網(wǎng)站時(shí),第一件事就先讀下網(wǎng)站的 robots 協(xié)議。在了解哪些信息是可以抓取之后,才會(huì)行動(dòng)。比如淘寶的 robots 協(xié)議,雖然只有簡(jiǎn)單的 4 行字,但寫明了:百度爬蟲(chóng)( Baiduspider )不允許( Disallow )抓取任何內(nèi)容( / )。百度爬蟲(chóng)過(guò)來(lái)看到協(xié)議后,就算心里難受,也只能啥也不碰馬上離開(kāi)。
那可能有人說(shuō),這既然是君子協(xié)議,會(huì)不會(huì)有人不當(dāng)“ 君子 ”呢?當(dāng)然有,robots 協(xié)議只相當(dāng)于一個(gè)告知書,爬蟲(chóng)( 背后的人 )可以不聽(tīng)你的。和大家說(shuō)兩個(gè)違背 robots 協(xié)議的例子。第一個(gè)例子是 BE 和 eBay 的糾紛。
BE 是一個(gè)提供拍賣信息的聚合網(wǎng)站。它利用爬蟲(chóng)抓取 eBay 等拍賣網(wǎng)站的商品信息,然后放在自己網(wǎng)站上賺取流量。盡管 eBay 早已寫好了 robots 協(xié)議,告訴 BE 爬蟲(chóng)不準(zhǔn)抓取任何內(nèi)容。但 BE 認(rèn)為這類拍賣信息都是大眾上傳的,eBay 設(shè)置 robots 協(xié)議不讓自己抓取,不合理啊。
后來(lái)法院經(jīng)過(guò)多方調(diào)查取證,認(rèn)為ebay 網(wǎng)站上內(nèi)容屬于私有財(cái)產(chǎn),它用 robots 協(xié)議保護(hù)私有財(cái)產(chǎn)是合理的。最后認(rèn)定 BE 侵權(quán)。想必大家能看出來(lái),法院判定結(jié)果并不是單純看有沒(méi)有違背robots 協(xié)議,最主要還得看這個(gè)robots 協(xié)議合不合理。
同樣,還有個(gè)例子也證明了這點(diǎn)。大部分人都知道 3Q 大戰(zhàn),但可能沒(méi)聽(tīng)過(guò) 360 和百度的“ 3B 大戰(zhàn) ”。
2012 年 8 月 360 搜索剛上線,它抓取了百度旗下的內(nèi)容( 百度知道,貼吧 )并以快照的形式提供給用戶。但是,百度的 robots 協(xié)議寫明了只有部分搜索引擎可以抓取,當(dāng)中沒(méi)包括 360 搜索。也就是說(shuō) 360 違背了百度 robots 協(xié)議。
圖源百度百科▼
后來(lái)百度想了一個(gè)法子,只要在 360 搜索中搜到百度相關(guān)網(wǎng)站,點(diǎn)擊后就會(huì)跳轉(zhuǎn)到百度搜索引擎網(wǎng)站。再到后來(lái)他們鬧上了法庭。
這件事去年才算正式結(jié)案,判決書大概有一萬(wàn)多字吧,可把世超看了好一會(huì)。不管是 360 把百度快照提供給用戶,還是百度的跳轉(zhuǎn)措施,這些操作法院都進(jìn)行了相應(yīng)的判決,但是跟我們文章沒(méi)太大關(guān)系。世超只在這里說(shuō)下:對(duì)于 360 搜索違背百度 robots 協(xié)議的抓取行為,是怎么判定的。首先 360 在 2012 年 8 月違背 robots 協(xié)議是有不合理在先,但是同年 11 月發(fā)布了《 自律條約》。
條約可是規(guī)定了robots 協(xié)議限制搜索引擎得有正當(dāng)理由:比如為了保護(hù)敏感信息、公眾利益或者維持網(wǎng)站正常運(yùn)行。但百度限制 360 搜索抓取的內(nèi)容,既不是重要敏感信息,被抓取了也不會(huì)讓百度不能運(yùn)行了或者損害了公共利益。。
這就可以判定百度沒(méi)有正當(dāng)理由拒絕 360 抓取,360 的抓取行為也并非不正當(dāng)競(jìng)爭(zhēng)行為。
所以啊,不是寫了 robots 協(xié)議就一定在理,你這個(gè)協(xié)議首先得合理才行。但關(guān)鍵是,這個(gè)合理的界限有時(shí)候不是很好定。。比如現(xiàn)在不少互聯(lián)網(wǎng)公司用 robots 協(xié)議阻止搜索引擎收錄,限制了信息分享。你說(shuō)他們是在合理設(shè)置 robots 也沒(méi)錯(cuò),畢竟是為了保護(hù)自己的數(shù)據(jù)權(quán)益。但這是不是和互聯(lián)網(wǎng)的初衷背道而馳了呢。。
就拿世超自己經(jīng)歷來(lái)講。之前寫個(gè)反詐騙的文章,百度查了大半天資料不夠,差點(diǎn)放棄。后來(lái)在微信里搜,才在一家公眾號(hào)文章上找到相關(guān)資料。最后要找視頻作為動(dòng)圖素材,我又跑去短視頻平臺(tái)。。要知道曾幾何時(shí),我們明明可以很輕易的查詢到信息,現(xiàn)在因?yàn)楦鞔缶W(wǎng)站的 robots 協(xié)議變成了如此困難。。
更諷刺的是, robots 協(xié)議原本做出來(lái)只是為了提高爬蟲(chóng)效率,更好地促進(jìn)信息流動(dòng)的。。這是不是有點(diǎn)變味了。。
總結(jié)
以上是生活随笔為你收集整理的就因为微信误删了几行字 公众号文章能被别家搜到了?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 刀山火海是谁写的呢?
- 下一篇: 梦见与死人说话是什么预兆