日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客

發(fā)布時(shí)間:2023/12/14 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前因

現(xiàn)在的網(wǎng)頁越來越動(dòng)態(tài)和漂亮,大量地用到了Javascript,包括但是不限于Ajax,這樣一來直接查看網(wǎng)頁源代碼的話的,獲取到的并不是真正的渲染完成后的頁面。這對(duì)采集來說,是一個(gè)很大的挑戰(zhàn)。

在火車頭當(dāng)中,對(duì)于Ajax獲取的數(shù)據(jù)的話,可以手動(dòng)分析頁面提取的Ajax的處理url,然后來提取。但是對(duì)于復(fù)雜的session驗(yàn)證(特別是.NET的網(wǎng)站來說)處理比較困難。

另外一方面,對(duì)于javascript生成的頁面,火車頭也沒法直接提取。

思路

首先明確的是必須獲取Javascript渲染結(jié)束后的結(jié)果。這一點(diǎn)是明確的,具體就是方法就因人而異。

而自己解決Javascript渲染無異于癡人說夢,所以必須借助現(xiàn)有的瀏覽器核心,比如Gecko、WebKit、IE。如果用Java開發(fā)的話可以Jrec這個(gè)庫,它封裝了Gecko。如果其他的語言,且在Windows平臺(tái)上的話,最簡單的就是用——?COM,用Internet Explorer 提供的com組件。

解決方案

突破了這層關(guān)系,下面的就水到渠成了。

在python下,對(duì)IE封裝的比較完善而且文檔齊全的就是PAMIE(http://sourceforge.net/projects/pamie),它的本意是作為自動(dòng)化測試工具使用的。

需要注意的是,在頁面加載完之后需要留出一定時(shí)間來讓頁面的js代碼執(zhí)行渲染完成后再提取html代碼,這個(gè)時(shí)間需要通過試驗(yàn)確定。

PAMIE 示例

PAMIE是一套為Python寫的用于Web自動(dòng)化測試的工具,采用Win32COM的方式操作IE來實(shí)現(xiàn)。

Pamie是個(gè)很好的操作IE的模塊,用pamie來操作ie瀏覽器好方便,本來它就是一個(gè)IE測試自動(dòng)化的東西,這樣,用pamie來抓取網(wǎng)頁,自動(dòng)提交表單很容易。

PAMIE測試最簡單的例子:

from cPAMIE import PAMIE

ie = PAMIE()

ie.navigate("google.com")

ie.textBoxSet('q','python')

ie.buttonClick('btnG')

ie.linkClick('Python Programming Language -- Official Website')

ie.windowChange('Python Programming Language -- Official Website')

ie.windowFind('Python Programming Language -- Official Website')

ie.textBoxSet('q',"Automation")

ie.buttonClick('submit')

直接操作頁面上的form元素,訪問頁面的文本信息,來判斷用戶登陸是否成功。

需要注意點(diǎn)

前面所述的利用PAMIE來獲取渲染后的html內(nèi)容的方法是可行的,但是缺點(diǎn)是效率非常低。對(duì)于最常見的ajax動(dòng)態(tài)內(nèi)容頁面來說,最直接的方法還是構(gòu)造ajax請(qǐng)求,來獲取相應(yīng)內(nèi)容。這樣效率很高,而且返回?cái)?shù)據(jù)都是結(jié)構(gòu)化的xml或者json數(shù)據(jù),比html更容易處理。

總結(jié)

以上是生活随笔為你收集整理的python获取js渲染后的源码_Python使用PAMIE获取JS渲染后的HTML源码 - 米扑博客的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。