日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接

發(fā)布時間:2023/12/31 python 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 前言
  • 百度文庫
  • 道客巴巴
  • 豆丁網(wǎng)

前言

在從兩個小網(wǎng)站爬取了書籍之后,我想研究一下大網(wǎng)站的網(wǎng)頁,便把自己分析出來的一點結(jié)果分享出來,希望能幫助大家,也請大佬指出其中不足。

百度文庫

任意打開一篇文檔F12調(diào)出控制臺

試著檢查一下圖片元素,可以發(fā)現(xiàn)一個url

url很長,包含了很多參數(shù),我單獨(dú)分析了一下參數(shù)的內(nèi)容,沒能找到頁面之間的循環(huán)規(guī)律,如果有大佬發(fā)現(xiàn)了還望點撥點撥。

把鏈接拿出來直接從瀏覽器訪問看看,成功獲得了圖片資源。

手動翻頁,繼續(xù)檢查圖片,同樣可以獲得一個新的url

這樣以來就可以用selenium進(jìn)行翻頁,獲取圖片資源了,而元素定位可以結(jié)合之前圖片中標(biāo)注的#pageNo-1的這種id選擇器,循環(huán)起來獲取圖片資源。

道客巴巴

這個需要在IE瀏覽器下操作,任意打開一個文檔,調(diào)出控制臺;依舊是找圖片的連接;在這里圖片鏈接被拆開放在object的data與param的value當(dāng)中。

將剛才的鏈接拼好在頁面中打開,雖然看起來是圖片,實際上是flash,chrome直接訪問會下載一個swf而非加載圖片。

由于selenium調(diào)用ie并不那么常見,而且我采取的是截圖來獲取flash的圖片,這里簡單演示一下代碼,還沒有完善翻頁獲取多張圖片。

from bs4 import BeautifulSoup from selenium import webdriver browser = webdriver.Ie() browser.get('http://www.doc88.com/p-2055371015972.html') html = browser.page_source soup = BeautifulSoup(html, 'lxml') # 獲取object標(biāo)簽 list = soup.find_all('object') for item in list:# 獲取object下的參數(shù),索引為3的是需要的鏈接值childs = soup.find('object').childreni = 0for child in childs:if i == 3:value = child['value']url = item['data']+valueprint(url)i += 1browser.get(url)browser.get_screenshot_as_file('F:/1.png')

結(jié)果展示

雖然比例有點失調(diào),不過之后合成pdf的時候可以根據(jù)畫布的尺寸進(jìn)行調(diào)整。

豆丁網(wǎng)

這個也需要在ie下進(jìn)行操作,在chrome、Firefox等瀏覽器內(nèi)核下加載的是canvas的畫布,雙內(nèi)核的360瀏覽在此采用的ie的加載機(jī)制。

后續(xù)的操作與道客巴巴中的相同,不再演示。

總結(jié)

以上是生活随笔為你收集整理的python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。