當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

發(fā)布時(shí)間：2025/6/15 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

有關(guān)網(wǎng)頁(yè)抓取問(wèn)題的一些經(jīng)驗(yàn)總結(jié) - passover【畢成功的博客】 - 51CTO技術(shù)博客

有關(guān)網(wǎng)頁(yè)抓取問(wèn)題的一些經(jīng)驗(yàn)總結(jié)

2011-05-05 18:07:38

標(biāo)簽：爬蟲(chóng) 網(wǎng)頁(yè)抓取

??? 在寫(xiě)爬蟲(chóng)的時(shí)候經(jīng)常會(huì)遇到有些頁(yè)面下載下來(lái)會(huì)有問(wèn)題，如果你把請(qǐng)求模擬成和瀏覽器一樣，肯定是可以把頁(yè)面正確獲取的，但是其中往往很多參數(shù)都沒(méi)有什么用，真正影響的就幾個(gè)關(guān)鍵參數(shù)。這里特別把自己的經(jīng)驗(yàn)做一下總結(jié)。

??? 重點(diǎn)需要關(guān)注的參數(shù)有：

1. url: 這主要就是URL編碼會(huì)導(dǎo)致問(wèn)題，在URL中包含中文的時(shí)候可能會(huì)出現(xiàn)

2. user-agent: 大網(wǎng)站通常會(huì)對(duì)不同的瀏覽器做優(yōu)化，所以會(huì)有區(qū)別

3. cookie: 有些網(wǎng)站會(huì)用到cookie信息，比如有些網(wǎng)站會(huì)把session信息記錄在cookie中

4. refer: 有些網(wǎng)站為了防止跨站攻擊，會(huì)對(duì)refer的頁(yè)面進(jìn)行檢查

5. accept-charset和accept-encoding: 個(gè)別網(wǎng)站會(huì)對(duì)接收的編碼會(huì)有特殊處理

6. sessionID: 這個(gè)有時(shí)會(huì)設(shè)在參數(shù)中，有些網(wǎng)站會(huì)用到這個(gè)值，當(dāng)然還有其他參數(shù)可能會(huì)有用到。

??? 上面都是經(jīng)驗(yàn)之談，希望能對(duì)大家有所幫助。

總結(jié)

以上是生活随笔為你收集整理的有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Exchange日常管理之二十一：管理邮
下一篇： SharePoint 2010 内容编辑

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

總結(jié)