Scrapy 爬虫框架四 —— 动态网页及其 Splash 渲染
一、前言
動態(tài)頁面:HTML文檔中的部分是由客戶端運行JS腳本生成的,即服務(wù)器生成部分HTML文檔內(nèi)容,其余的再由客戶端生成
靜態(tài)頁面:整個HTML文檔是在服務(wù)器端生成的,即服務(wù)器生成好了,再發(fā)送給我們客戶端
二、問題分析
scrapy爬蟲框架沒有提供頁面 js 渲染服務(wù),所以我們獲取不到信息,所以我們需要一個渲染引擎來為我們提供渲染服務(wù)---這就是Splash渲染引擎(大俠出場了)
1、Splash渲染引擎簡介:
Splash是為Scrapy爬蟲框架提供渲染javascript代碼的引擎,它有如下功能:
(1)為用戶返回渲染好的html頁面 (2)并發(fā)渲染多個頁面
(3)關(guān)閉圖片加載,加速渲染 (4)執(zhí)行用戶自定義的js代碼
(5)執(zhí)行用戶自定義的lua腳步,類似于無界面瀏覽器phantomjs
2、Splash渲染引擎工作原理:(類比例子如下)
假定有三個小伙伴:(1--懶惰的我 , 2 --提供外賣服務(wù)的小哥,3---本人喜歡吃的家味道餐飲點)
今天正好天氣不好,1呆在宿舍睡了一早上起來,發(fā)現(xiàn)肚子餓了,它就想
總結(jié)
以上是生活随笔為你收集整理的Scrapy 爬虫框架四 —— 动态网页及其 Splash 渲染的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超级弹珠游戏(洛谷P2356题题解,Ja
- 下一篇: (四)Go 语言编译流程简述