日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客

發布時間:2023/12/14 python 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前因

現在的網頁越來越動態和漂亮,大量地用到了Javascript,包括但是不限于Ajax,這樣一來直接查看網頁源代碼的話的,獲取到的并不是真正的渲染完成后的頁面。這對采集來說,是一個很大的挑戰。

在火車頭當中,對于Ajax獲取的數據的話,可以手動分析頁面提取的Ajax的處理url,然后來提取。但是對于復雜的session驗證(特別是.NET的網站來說)處理比較困難。

另外一方面,對于javascript生成的頁面,火車頭也沒法直接提取。

思路

首先明確的是必須獲取Javascript渲染結束后的結果。這一點是明確的,具體就是方法就因人而異。

而自己解決Javascript渲染無異于癡人說夢,所以必須借助現有的瀏覽器核心,比如Gecko、WebKit、IE。如果用Java開發的話可以Jrec這個庫,它封裝了Gecko。如果其他的語言,且在Windows平臺上的話,最簡單的就是用——?COM,用Internet Explorer 提供的com組件。

解決方案

突破了這層關系,下面的就水到渠成了。

在python下,對IE封裝的比較完善而且文檔齊全的就是PAMIE(http://sourceforge.net/projects/pamie),它的本意是作為自動化測試工具使用的。

需要注意的是,在頁面加載完之后需要留出一定時間來讓頁面的js代碼執行渲染完成后再提取html代碼,這個時間需要通過試驗確定。

PAMIE 示例

PAMIE是一套為Python寫的用于Web自動化測試的工具,采用Win32COM的方式操作IE來實現。

Pamie是個很好的操作IE的模塊,用pamie來操作ie瀏覽器好方便,本來它就是一個IE測試自動化的東西,這樣,用pamie來抓取網頁,自動提交表單很容易。

PAMIE測試最簡單的例子:

from cPAMIE import PAMIE

ie = PAMIE()

ie.navigate("google.com")

ie.textBoxSet('q','python')

ie.buttonClick('btnG')

ie.linkClick('Python Programming Language -- Official Website')

ie.windowChange('Python Programming Language -- Official Website')

ie.windowFind('Python Programming Language -- Official Website')

ie.textBoxSet('q',"Automation")

ie.buttonClick('submit')

直接操作頁面上的form元素,訪問頁面的文本信息,來判斷用戶登陸是否成功。

需要注意點

前面所述的利用PAMIE來獲取渲染后的html內容的方法是可行的,但是缺點是效率非常低。對于最常見的ajax動態內容頁面來說,最直接的方法還是構造ajax請求,來獲取相應內容。這樣效率很高,而且返回數據都是結構化的xml或者json數據,比html更容易處理。

總結

以上是生活随笔為你收集整理的python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。