python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客
前因
現(xiàn)在的網(wǎng)頁越來越動(dòng)態(tài)和漂亮,大量地用到了Javascript,包括但是不限于Ajax,這樣一來直接查看網(wǎng)頁源代碼的話的,獲取到的并不是真正的渲染完成后的頁面。這對(duì)采集來說,是一個(gè)很大的挑戰(zhàn)。
在火車頭當(dāng)中,對(duì)于Ajax獲取的數(shù)據(jù)的話,可以手動(dòng)分析頁面提取的Ajax的處理url,然后來提取。但是對(duì)于復(fù)雜的session驗(yàn)證(特別是.NET的網(wǎng)站來說)處理比較困難。
另外一方面,對(duì)于javascript生成的頁面,火車頭也沒法直接提取。
思路
首先明確的是必須獲取Javascript渲染結(jié)束后的結(jié)果。這一點(diǎn)是明確的,具體就是方法就因人而異。
而自己解決Javascript渲染無異于癡人說夢,所以必須借助現(xiàn)有的瀏覽器核心,比如Gecko、WebKit、IE。如果用Java開發(fā)的話可以Jrec這個(gè)庫,它封裝了Gecko。如果其他的語言,且在Windows平臺(tái)上的話,最簡單的就是用——?COM,用Internet Explorer 提供的com組件。
解決方案
突破了這層關(guān)系,下面的就水到渠成了。
在python下,對(duì)IE封裝的比較完善而且文檔齊全的就是PAMIE(http://sourceforge.net/projects/pamie),它的本意是作為自動(dòng)化測試工具使用的。
需要注意的是,在頁面加載完之后需要留出一定時(shí)間來讓頁面的js代碼執(zhí)行渲染完成后再提取html代碼,這個(gè)時(shí)間需要通過試驗(yàn)確定。
PAMIE 示例
PAMIE是一套為Python寫的用于Web自動(dòng)化測試的工具,采用Win32COM的方式操作IE來實(shí)現(xiàn)。
Pamie是個(gè)很好的操作IE的模塊,用pamie來操作ie瀏覽器好方便,本來它就是一個(gè)IE測試自動(dòng)化的東西,這樣,用pamie來抓取網(wǎng)頁,自動(dòng)提交表單很容易。
PAMIE測試最簡單的例子:
from cPAMIE import PAMIE
ie = PAMIE()
ie.navigate("google.com")
ie.textBoxSet('q','python')
ie.buttonClick('btnG')
ie.linkClick('Python Programming Language -- Official Website')
ie.windowChange('Python Programming Language -- Official Website')
ie.windowFind('Python Programming Language -- Official Website')
ie.textBoxSet('q',"Automation")
ie.buttonClick('submit')
直接操作頁面上的form元素,訪問頁面的文本信息,來判斷用戶登陸是否成功。
需要注意點(diǎn)
前面所述的利用PAMIE來獲取渲染后的html內(nèi)容的方法是可行的,但是缺點(diǎn)是效率非常低。對(duì)于最常見的ajax動(dòng)態(tài)內(nèi)容頁面來說,最直接的方法還是構(gòu)造ajax請(qǐng)求,來獲取相應(yīng)內(nèi)容。這樣效率很高,而且返回?cái)?shù)據(jù)都是結(jié)構(gòu)化的xml或者json數(shù)據(jù),比html更容易處理。
總結(jié)
以上是生活随笔為你收集整理的python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: created与mounted执行顺序
- 下一篇: websocket python爬虫_p