有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客
有關(guān)網(wǎng)頁(yè)抓取問(wèn)題的一些經(jīng)驗(yàn)總結(jié) - passover【畢成功的博客】 - 51CTO技術(shù)博客
有關(guān)網(wǎng)頁(yè)抓取問(wèn)題的一些經(jīng)驗(yàn)總結(jié)
2011-05-05 18:07:38
標(biāo)簽:爬蟲(chóng) 網(wǎng)頁(yè)抓取
??? 在寫(xiě)爬蟲(chóng)的時(shí)候經(jīng)常會(huì)遇到有些頁(yè)面下載下來(lái)會(huì)有問(wèn)題,如果你把請(qǐng)求模擬成和瀏覽器一樣,肯定是可以把頁(yè)面正確獲取的,但是其中往往很多參數(shù)都沒(méi)有什么用,真正影響的就幾個(gè)關(guān)鍵參數(shù)。這里特別把自己的經(jīng)驗(yàn)做一下總結(jié)。
??? 重點(diǎn)需要關(guān)注的參數(shù)有:
1. url: 這主要就是URL編碼會(huì)導(dǎo)致問(wèn)題,在URL中包含中文的時(shí)候可能會(huì)出現(xiàn)
2. user-agent: 大網(wǎng)站通常會(huì)對(duì)不同的瀏覽器做優(yōu)化,所以會(huì)有區(qū)別
3. cookie: 有些網(wǎng)站會(huì)用到cookie信息,比如有些網(wǎng)站會(huì)把session信息記錄在cookie中
4. refer: 有些網(wǎng)站為了防止跨站攻擊,會(huì)對(duì)refer的頁(yè)面進(jìn)行檢查
5. accept-charset和accept-encoding: 個(gè)別網(wǎng)站會(huì)對(duì)接收的編碼會(huì)有特殊處理
6. sessionID: 這個(gè)有時(shí)會(huì)設(shè)在參數(shù)中,有些網(wǎng)站會(huì)用到這個(gè)值,當(dāng)然還有其他參數(shù)可能會(huì)有用到。
??? 上面都是經(jīng)驗(yàn)之談,希望能對(duì)大家有所幫助。
總結(jié)
以上是生活随笔為你收集整理的有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Exchange日常管理之二十一:管理邮
- 下一篇: SharePoint 2010 内容编辑