python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接
文章目錄
- 前言
- 百度文庫
- 道客巴巴
- 豆丁網(wǎng)
前言
在從兩個小網(wǎng)站爬取了書籍之后,我想研究一下大網(wǎng)站的網(wǎng)頁,便把自己分析出來的一點結(jié)果分享出來,希望能幫助大家,也請大佬指出其中不足。
百度文庫
任意打開一篇文檔F12調(diào)出控制臺
試著檢查一下圖片元素,可以發(fā)現(xiàn)一個url
url很長,包含了很多參數(shù),我單獨(dú)分析了一下參數(shù)的內(nèi)容,沒能找到頁面之間的循環(huán)規(guī)律,如果有大佬發(fā)現(xiàn)了還望點撥點撥。
把鏈接拿出來直接從瀏覽器訪問看看,成功獲得了圖片資源。
手動翻頁,繼續(xù)檢查圖片,同樣可以獲得一個新的url
這樣以來就可以用selenium進(jìn)行翻頁,獲取圖片資源了,而元素定位可以結(jié)合之前圖片中標(biāo)注的#pageNo-1的這種id選擇器,循環(huán)起來獲取圖片資源。
道客巴巴
這個需要在IE瀏覽器下操作,任意打開一個文檔,調(diào)出控制臺;依舊是找圖片的連接;在這里圖片鏈接被拆開放在object的data與param的value當(dāng)中。
將剛才的鏈接拼好在頁面中打開,雖然看起來是圖片,實際上是flash,chrome直接訪問會下載一個swf而非加載圖片。
由于selenium調(diào)用ie并不那么常見,而且我采取的是截圖來獲取flash的圖片,這里簡單演示一下代碼,還沒有完善翻頁獲取多張圖片。
結(jié)果展示
雖然比例有點失調(diào),不過之后合成pdf的時候可以根據(jù)畫布的尺寸進(jìn)行調(diào)整。
豆丁網(wǎng)
這個也需要在ie下進(jìn)行操作,在chrome、Firefox等瀏覽器內(nèi)核下加載的是canvas的畫布,雙內(nèi)核的360瀏覽在此采用的ie的加載機(jī)制。
后續(xù)的操作與道客巴巴中的相同,不再演示。
總結(jié)
以上是生活随笔為你收集整理的python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MIKE水动力笔记5_建立水动力模型
- 下一篇: websocket python爬虫_p