python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接
文章目錄
- 前言
- 百度文庫
- 道客巴巴
- 豆丁網
前言
在從兩個小網站爬取了書籍之后,我想研究一下大網站的網頁,便把自己分析出來的一點結果分享出來,希望能幫助大家,也請大佬指出其中不足。
百度文庫
任意打開一篇文檔F12調出控制臺
試著檢查一下圖片元素,可以發現一個url
url很長,包含了很多參數,我單獨分析了一下參數的內容,沒能找到頁面之間的循環規律,如果有大佬發現了還望點撥點撥。
把鏈接拿出來直接從瀏覽器訪問看看,成功獲得了圖片資源。
手動翻頁,繼續檢查圖片,同樣可以獲得一個新的url
這樣以來就可以用selenium進行翻頁,獲取圖片資源了,而元素定位可以結合之前圖片中標注的#pageNo-1的這種id選擇器,循環起來獲取圖片資源。
道客巴巴
這個需要在IE瀏覽器下操作,任意打開一個文檔,調出控制臺;依舊是找圖片的連接;在這里圖片鏈接被拆開放在object的data與param的value當中。
將剛才的鏈接拼好在頁面中打開,雖然看起來是圖片,實際上是flash,chrome直接訪問會下載一個swf而非加載圖片。
由于selenium調用ie并不那么常見,而且我采取的是截圖來獲取flash的圖片,這里簡單演示一下代碼,還沒有完善翻頁獲取多張圖片。
結果展示
雖然比例有點失調,不過之后合成pdf的時候可以根據畫布的尺寸進行調整。
豆丁網
這個也需要在ie下進行操作,在chrome、Firefox等瀏覽器內核下加載的是canvas的畫布,雙內核的360瀏覽在此采用的ie的加載機制。
后續的操作與道客巴巴中的相同,不再演示。
總結
以上是生活随笔為你收集整理的python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MIKE水动力笔记5_建立水动力模型
- 下一篇: 177. Python语言 的 Flas