安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法
有的網(wǎng)站明明內(nèi)容優(yōu)質(zhì)原創(chuàng),用戶可以正常訪問,但偏偏網(wǎng)絡(luò)蜘蛛無(wú)法正常訪問抓取導(dǎo)致無(wú)法被收錄,搜索結(jié)果覆蓋率偏低,對(duì)搜索引擎和網(wǎng)站都是一種損失,這種情況就是抓取異常。對(duì)于大量?jī)?nèi)容無(wú)法正常抓取的網(wǎng)站,搜索引擎會(huì)以為網(wǎng)站存在用戶體驗(yàn)上的缺陷,并降低對(duì)其的評(píng)價(jià),在抓取、索引、排序上必然受到一定的負(fù)面影響,最終影響到網(wǎng)站從搜索引擎獲取的流量。下面,小編總結(jié)了一些常見導(dǎo)致搜索引擎蜘蛛抓取異常的原因,供大家參考。
一.服務(wù)器連接異常
服務(wù)器連接異常一般有兩種:一種是暫時(shí)無(wú)法連接,另一種是一直無(wú)法連接。對(duì)于用戶來(lái)說(shuō),一個(gè)連接異常的服務(wù)器是他們是不會(huì)逗留的,網(wǎng)絡(luò)蜘蛛同樣如此,服務(wù)器連接異常的網(wǎng)站會(huì)被網(wǎng)絡(luò)蜘蛛判斷排除,導(dǎo)致抓取異常。造成服務(wù)器連接異常的原因通常是網(wǎng)站服務(wù)器過大,超負(fù)荷運(yùn)轉(zhuǎn),通過檢查瀏覽器是否正常訪問。服務(wù)器異常會(huì)導(dǎo)致蜘蛛無(wú)法連接網(wǎng)站服務(wù)器,導(dǎo)致出現(xiàn)抓取失敗。。網(wǎng)站和主機(jī)還可能阻止了網(wǎng)絡(luò)蜘蛛的訪問,需要檢查網(wǎng)站和主機(jī)的防火墻。選擇一款安全穩(wěn)定,性能好的服務(wù)器是網(wǎng)站優(yōu)化的根本前提。
二.抓取超時(shí)
網(wǎng)站頁(yè)面的加載速度一直是不可忽視的重點(diǎn),對(duì)用戶和搜索引擎的體驗(yàn)有著舉足輕重的影響。用戶訪問頁(yè)面時(shí)如果不能在第一時(shí)間打開頁(yè)面,那么就會(huì)喪失興趣,而跳到其他網(wǎng)站上去。而蜘蛛呢?同樣如此,如果無(wú)法第一時(shí)間抓取,就會(huì)出現(xiàn)抓取超時(shí)問題了。 抓取超時(shí),往往是因?yàn)閹挷蛔?#xff0c;以及頁(yè)面太大而導(dǎo)致的。因此設(shè)計(jì)頁(yè)面時(shí)應(yīng)該對(duì)網(wǎng)頁(yè)上的圖片進(jìn)行壓縮;減少一些腳本的使用;控制頁(yè)面長(zhǎng)度和內(nèi)鏈數(shù)量,可以在一定程度上縮減頁(yè)面,減少服務(wù)器上的負(fù)擔(dān),緩解服務(wù)器過載的情況。
三. 網(wǎng)絡(luò)運(yùn)營(yíng)商異常
國(guó)內(nèi)主要的網(wǎng)絡(luò)運(yùn)營(yíng)商有電信和聯(lián)通。如果網(wǎng)絡(luò)蜘蛛無(wú)法通過電信或聯(lián)通的網(wǎng)絡(luò)訪問網(wǎng)站,則需要與網(wǎng)絡(luò)運(yùn)營(yíng)商聯(lián)系,購(gòu)買擁有雙線服務(wù)的空間,或者購(gòu)買CDN服務(wù)。
四. DNS異常
當(dāng)網(wǎng)絡(luò)蜘蛛無(wú)法解析網(wǎng)站的IP地址,會(huì)出現(xiàn)DNS異常,這可能是由網(wǎng)址出現(xiàn)了IP地址錯(cuò)誤,或者域名服務(wù)商將網(wǎng)絡(luò)蜘蛛封禁的其中一種情況導(dǎo)致的。可以使用WHOIS或者h(yuǎn)ost查詢網(wǎng)站IP地址是否正確且可解析,如果不正確或無(wú)法解析,應(yīng)與域名注冊(cè)商聯(lián)系,更新IP地址。
五. 設(shè)置錯(cuò)誤
包括IP封禁和UA封禁。IP禁封是指限制網(wǎng)絡(luò)的出口IP地址,禁止該IP段的使用者進(jìn)行內(nèi)容訪問。而UA禁封則是針對(duì)服務(wù)器通過UA(用戶代理)識(shí)別身份后的用戶進(jìn)行指定的跳轉(zhuǎn)。這兩種封禁都會(huì)導(dǎo)致網(wǎng)絡(luò)蜘蛛無(wú)法正常到訪抓取。應(yīng)該識(shí)別設(shè)置是否誤添加了相關(guān)搜索引擎網(wǎng)絡(luò)蜘蛛的封禁。
六. 死鏈
死鏈就是頁(yè)面已經(jīng)無(wú)效,無(wú)法對(duì)用戶提供任何有價(jià)值信息的頁(yè)面,包括協(xié)議死鏈和內(nèi)容死鏈兩種形式:一種是協(xié)議死鏈:頁(yè)面的TCP協(xié)議狀態(tài)/HTTP協(xié)議狀態(tài)明確表示的死鏈,常見的如404、403、503狀態(tài)等。另一種內(nèi)容死鏈:服務(wù)器返回狀態(tài)是正常的,但內(nèi)容已經(jīng)變更為不存在、已刪除或需要權(quán)限等與原內(nèi)容無(wú)關(guān)的信息頁(yè)面。目前內(nèi)容死鏈召回存在召回率的風(fēng)險(xiǎn),所以建議各位站長(zhǎng)盡量使用協(xié)議死鏈,以保證平臺(tái)工具更好地發(fā)揮其作用。死鏈可通過死鏈工具提交給搜索引擎,減速死鏈造成的負(fù)面影響。
七.網(wǎng)站被掛馬
網(wǎng)站被掛馬也可能導(dǎo)致抓取異。查詢掛馬文件在哪里并刪除,恢復(fù)網(wǎng)站,做好安全防范措施,防止下次被掛馬。
各位站長(zhǎng)平時(shí)要多多查看自己網(wǎng)站的網(wǎng)絡(luò)蜘蛛抓取情況。如果發(fā)現(xiàn)偶爾抓取失敗,則屬于正常情況,不會(huì)對(duì)網(wǎng)站的正常抓取和收錄造成影響。但如果抓取失敗出現(xiàn)持續(xù)性的,則要引起注意了,根據(jù)網(wǎng)站出現(xiàn)抓取異常的具體原因做上述具體的分析。各位如果對(duì)網(wǎng)絡(luò)蜘蛛抓取異常還存在其他疑問可以咨詢【中網(wǎng)網(wǎng)絡(luò)客】。
之后文章將會(huì)持續(xù)更新,為大家提供有質(zhì)量的文章,盡情關(guān)注【中網(wǎng)網(wǎng)絡(luò)客】
總結(jié)
以上是生活随笔為你收集整理的安居客检测到网页抓取_原创内容不收录 解决网站抓取异常的有效分析方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javaweb功能模块如何合理设计_产品
- 下一篇: timer定时器_拾遗Timer定时器