关于火车采集js调用文章资讯的方法 淘宝采集 相关
關(guān)于火車采集js調(diào)用文章資訊的方法
心島發(fā)布于2014年12月16日 分類: 數(shù)據(jù)采集? 瀏覽:761 人次 評(píng)論:0一、需要準(zhǔn)備的工具軟件:
火車頭采集器
抓包軟件(我使用的是fiddler)
二、首先以淘寶密兒為例說明如何對(duì)js調(diào)用的網(wǎng)頁進(jìn)行抓包
整體思路:利用網(wǎng)頁cookie進(jìn)行數(shù)據(jù)抓包處理。
1、安裝運(yùn)行抓包軟件:
2、打開淘寶密兒網(wǎng)頁并將網(wǎng)頁滾動(dòng)至網(wǎng)頁底部,滾動(dòng)過程中,你會(huì)發(fā)現(xiàn)大約一張頁面會(huì)有5次js加載,然后點(diǎn)擊狀態(tài)欄的抓包軟件,所有的抓包數(shù)據(jù)一目了然:
三、根據(jù)抓包數(shù)據(jù)設(shè)置采集規(guī)則
1、打開火車采集軟件,新建一采集任務(wù),然后點(diǎn)擊采集網(wǎng)址選項(xiàng)卡的添加按鈕,添加采集網(wǎng)址:
2、提取js頁面的下層頁面網(wǎng)址和該欄目的文章總數(shù):
關(guān)于找網(wǎng)址的方法如下圖所示:
利用文本工具打開代碼后的對(duì)應(yīng)關(guān)系如下(注意:復(fù)制的是項(xiàng)目的值,不要連標(biāo)題都復(fù)制過去):
這樣完成后會(huì)采集到列表頁面網(wǎng)址,但是我們還需要通過代碼分析的方法將下層的網(wǎng)址也要提取出來:
注意:上圖中需要將cookie復(fù)制到上圖中的對(duì)應(yīng)位置,然后開始查看:
如上圖所示,這樣就是已經(jīng)成功執(zhí)行了,注意紅框中的總頁數(shù),如果大家最后采集到的頁面總數(shù)可以和此處對(duì)比!
3、提取內(nèi)容頁的腳本規(guī)則:
利用上一步中我們查看到的代碼來分析
至此,通過抓包軟件獲取js頁面文章地址的方法就講述完畢了,如果大家有任何問題,請(qǐng)?jiān)谛膷u博客中留言,我講盡快協(xié)助解決問題!
總結(jié)
以上是生活随笔為你收集整理的关于火车采集js调用文章资讯的方法 淘宝采集 相关的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三角函数π/2转化_高中数学:三角函数知
- 下一篇: 图像标注-自动标注图像