python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客
前因
現在的網頁越來越動態和漂亮,大量地用到了Javascript,包括但是不限于Ajax,這樣一來直接查看網頁源代碼的話的,獲取到的并不是真正的渲染完成后的頁面。這對采集來說,是一個很大的挑戰。
在火車頭當中,對于Ajax獲取的數據的話,可以手動分析頁面提取的Ajax的處理url,然后來提取。但是對于復雜的session驗證(特別是.NET的網站來說)處理比較困難。
另外一方面,對于javascript生成的頁面,火車頭也沒法直接提取。
思路
首先明確的是必須獲取Javascript渲染結束后的結果。這一點是明確的,具體就是方法就因人而異。
而自己解決Javascript渲染無異于癡人說夢,所以必須借助現有的瀏覽器核心,比如Gecko、WebKit、IE。如果用Java開發的話可以Jrec這個庫,它封裝了Gecko。如果其他的語言,且在Windows平臺上的話,最簡單的就是用——?COM,用Internet Explorer 提供的com組件。
解決方案
突破了這層關系,下面的就水到渠成了。
在python下,對IE封裝的比較完善而且文檔齊全的就是PAMIE(http://sourceforge.net/projects/pamie),它的本意是作為自動化測試工具使用的。
需要注意的是,在頁面加載完之后需要留出一定時間來讓頁面的js代碼執行渲染完成后再提取html代碼,這個時間需要通過試驗確定。
PAMIE 示例
PAMIE是一套為Python寫的用于Web自動化測試的工具,采用Win32COM的方式操作IE來實現。
Pamie是個很好的操作IE的模塊,用pamie來操作ie瀏覽器好方便,本來它就是一個IE測試自動化的東西,這樣,用pamie來抓取網頁,自動提交表單很容易。
PAMIE測試最簡單的例子:
from cPAMIE import PAMIE
ie = PAMIE()
ie.navigate("google.com")
ie.textBoxSet('q','python')
ie.buttonClick('btnG')
ie.linkClick('Python Programming Language -- Official Website')
ie.windowChange('Python Programming Language -- Official Website')
ie.windowFind('Python Programming Language -- Official Website')
ie.textBoxSet('q',"Automation")
ie.buttonClick('submit')
直接操作頁面上的form元素,訪問頁面的文本信息,來判斷用戶登陸是否成功。
需要注意點
前面所述的利用PAMIE來獲取渲染后的html內容的方法是可行的,但是缺點是效率非常低。對于最常見的ajax動態內容頁面來說,最直接的方法還是構造ajax請求,來獲取相應內容。這樣效率很高,而且返回數據都是結構化的xml或者json數據,比html更容易處理。
總結
以上是生活随笔為你收集整理的python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: created与mounted执行顺序
- 下一篇: python中如何引入π_python如