日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...

發布時間:2025/3/20 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python對JS型數據抓取有什么特別好的方法嗎,pythonjs型抓取,想寫一個爬蟲,但是需要抓

想寫一個爬蟲,但是需要抓去的的數據是js生成的,在源代碼里看不到,要怎么才能抓到呢? 最好是用python

可以試著用 http://jeanphix.me/Ghost.py/ , http://code.google.com/p/pyv8/ 獲得 JS 執行后的 dom。

對于JS生成的數據,你是沒有辦法獲取的。除非直接遍歷dom還是有可能……

一種辦法是可以考慮用userscript,獲取數據然后post到服務器等就隨你自己的喜歡了

還有一種辦法(假設是在win32),可以使用com組件調用IE然后獲取動態生成的dom樹,然后再做處理

當年試過改firefox的程序來做這個,不過也很麻煩

當然,你也可以用python什么自己實現一套瀏覽器和js引擎,那么這些數據肯定是你自己的了,不過還不如直接改或者用com組件

但是你說的爬蟲爬取js生成的,那是沒有辦法的:(不管怎么樣,一定要實現dom樹,要讓js能執行,那么就相當于你要實現一套簡單的瀏覽器了

https://github.com/tmpvar/jsdom

http://docs.casperjs.org/en/latest/quickstart.html

目前認為比較好的一個方案是采用python+gtk+pywebkit,相當于基于webkit自己寫一個定制的瀏覽器,這樣可以在網頁中插入自己的js,遍歷dom等都是非常容易的。這個組合在ubuntu下還是非常容易搭建的。

sudo apt-get install python-gtk python-webkit,即可。

如果對抓取的性能沒有什么要求的話, 嘗試一下selenium或者watir吧.

web自動化測試腳本用好了可以做很多事情.

利用你的瀏覽器執行好js, 然后再從dom里面取數據.

另外一個情況, 如果你知道js是通過ajax或者api取數據的, 直接去抓數據源, 得到的不是json就是xml, 然后處理數據吧

基于webkit的http://phantomjs.org/,寫js就行。

用python調它,用起來很爽。

編橙之家文章,

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的python可抓取数据包括什么_Python对JS型数据抓取有什么特别好的方法吗,pythonjs型抓取,想写一个爬虫,但是需要抓...的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。