日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python图片超链接_python自动获得网页上的所有超链接并全部截图

發(fā)布時(shí)間:2023/12/19 python 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python图片超链接_python自动获得网页上的所有超链接并全部截图 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

需要安裝python的selenium模塊,這是一個(gè)瀏覽器自動(dòng)化的框架。然后我是使用chrome瀏覽器的,所以還需要安裝一個(gè)chromedriver。還有一個(gè)爬蟲(chóng)框架bs4。

selenium和bs4直接用pip安裝,在終端下執(zhí)行:

pip install selenium

pip install Beautifulsoup4

chromedriver安裝參考這個(gè)網(wǎng)址:

https://www.cnblogs.com/technologylife/p/5829944.html

然后進(jìn)入正文,總的流程就是解析網(wǎng)址的html,取出超鏈接逐個(gè)訪問(wèn),然后截圖到本地的文件夾里,目前實(shí)現(xiàn)的版本還沒(méi)有分類,只是把圖片全部存到一個(gè)文件夾里。

總的代碼如下:

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

import requests

from bs4 import BeautifulSoup

import time

i=0 #目前暫時(shí)先用一個(gè)計(jì)數(shù)來(lái)表示圖片的文件名

def getScreenShot(url):

'''

此函數(shù)用于根據(jù)url訪問(wèn)網(wǎng)頁(yè),并截圖到本地文件夾

'''

global i #全局變量

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu') #設(shè)置瀏覽器參數(shù)

brower = webdriver.Chrome(chrome_options=chrome_options) #創(chuàng)建一個(gè)chrome的webdrive

brower.maximize_window() #設(shè)置全屏截圖

js_height="return document.body.clientHeight"

picName = "/home/orange/視頻/"+str(i)+".png" #指定保存文件的文件名

brower.get(url) #獲取url

i+=1

try:

brower.get(url)

k=1

height=brower.execute_script(js_height)

#獲取整張網(wǎng)頁(yè)的截圖,而不只是當(dāng)前屏幕范圍內(nèi)的

while True:

if k*500

js_move="window.scrollTo(0,{})".format(k*500)

print(js_move)

brower.execute_script(js_move)

time.sleep(0.2)

height=brower.execute_script(js_height)

k+=1

else:

break

scroll_width = brower.execute_script('return document.body.parentNode.scrollWidth')

scroll_height = brower.execute_script('return document.body.parentNode.scrollHeight')

brower.set_window_size(scroll_width, scroll_height)

brower.get_screenshot_as_file(picName)

time.sleep(0.1)

except Exception as e:

print(picName,e)

brower.save_screenshot(picName) #保存截圖

brower.close() #關(guān)閉webdriver

def getHTMLText(url):

'''

此函數(shù)用于獲取網(wǎng)頁(yè)的html文檔

'''

try:

#獲取服務(wù)器的響應(yīng)內(nèi)容,并設(shè)置最大請(qǐng)求時(shí)間為6秒

res = requests.get(url, timeout = 6)

#判斷返回狀態(tài)碼是否為200

res.raise_for_status()

#設(shè)置該html文檔可能的編碼

res.encoding = res.apparent_encoding

#返回網(wǎng)頁(yè)HTML代碼

return res.text

except:

return '產(chǎn)生異常'

def main():

'''

主函數(shù)

'''

#目標(biāo)網(wǎng)頁(yè),這個(gè)可以換成一個(gè)你想要的網(wǎng)站

url = 'https://www.cnblogs.com/huwt/'

demo = getHTMLText(url) #獲取html代碼

#解析HTML代碼

soup = BeautifulSoup(demo, 'html.parser')

#模糊搜索HTML代碼的所有包含href屬性的標(biāo)簽

a_labels = soup.find_all('a', attrs={'href': True})

hash_set=set() #創(chuàng)建一個(gè)哈希表,避免對(duì)同一個(gè)網(wǎng)站重復(fù)截圖,每當(dāng)訪問(wèn)一個(gè)網(wǎng)站后,將網(wǎng)址加入到哈希表中,如果哈希表中已經(jīng)有這個(gè)網(wǎng)址,則不再截圖

#獲取所有標(biāo)簽中的href對(duì)應(yīng)的值,即超鏈接

for a in a_labels:

s=a.get('href')

if s not in hash_set: #如果這個(gè)超鏈接不在哈希表中

hash_set.add(s) #添加這超鏈接到哈希表

getScreenShot(s) #獲取這個(gè)網(wǎng)站的截圖

main()

總結(jié)

以上是生活随笔為你收集整理的python图片超链接_python自动获得网页上的所有超链接并全部截图的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。