當前位置：首頁 > 编程语言 > python >内容正文

python

python图片超链接_python自动获得网页上的所有超链接并全部截图

發布時間：2023/12/19 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python图片超链接_python自动获得网页上的所有超链接并全部截图小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

需要安裝python的selenium模塊，這是一個瀏覽器自動化的框架。然后我是使用chrome瀏覽器的，所以還需要安裝一個chromedriver。還有一個爬蟲框架bs4。

selenium和bs4直接用pip安裝，在終端下執行：

pip install selenium

pip install Beautifulsoup4

chromedriver安裝參考這個網址：

https://www.cnblogs.com/technologylife/p/5829944.html

然后進入正文，總的流程就是解析網址的html，取出超鏈接逐個訪問，然后截圖到本地的文件夾里，目前實現的版本還沒有分類，只是把圖片全部存到一個文件夾里。

總的代碼如下：

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

import requests

from bs4 import BeautifulSoup

import time

i=0 #目前暫時先用一個計數來表示圖片的文件名

def getScreenShot(url):

'''

此函數用于根據url訪問網頁，并截圖到本地文件夾

'''

global i #全局變量

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu') #設置瀏覽器參數

brower = webdriver.Chrome(chrome_options=chrome_options) #創建一個chrome的webdrive

brower.maximize_window() #設置全屏截圖

js_height="return document.body.clientHeight"

picName = "/home/orange/視頻/"+str(i)+".png" #指定保存文件的文件名

brower.get(url) #獲取url

i+=1

try:

brower.get(url)

k=1

height=brower.execute_script(js_height)

#獲取整張網頁的截圖，而不只是當前屏幕范圍內的

while True:

if k*500

js_move="window.scrollTo(0,{})".format(k*500)

print(js_move)

brower.execute_script(js_move)

time.sleep(0.2)

height=brower.execute_script(js_height)

k+=1

else:

break

scroll_width = brower.execute_script('return document.body.parentNode.scrollWidth')

scroll_height = brower.execute_script('return document.body.parentNode.scrollHeight')

brower.set_window_size(scroll_width, scroll_height)

brower.get_screenshot_as_file(picName)

time.sleep(0.1)

except Exception as e:

print(picName,e)

brower.save_screenshot(picName) #保存截圖

brower.close() #關閉webdriver

def getHTMLText(url):

'''

此函數用于獲取網頁的html文檔

'''

try:

#獲取服務器的響應內容，并設置最大請求時間為6秒

res = requests.get(url, timeout = 6)

#判斷返回狀態碼是否為200

res.raise_for_status()

#設置該html文檔可能的編碼

res.encoding = res.apparent_encoding

#返回網頁HTML代碼

return res.text

except:

return '產生異常'

def main():

'''

主函數

'''

#目標網頁，這個可以換成一個你想要的網站

url = 'https://www.cnblogs.com/huwt/'

demo = getHTMLText(url) #獲取html代碼

#解析HTML代碼

soup = BeautifulSoup(demo, 'html.parser')

#模糊搜索HTML代碼的所有包含href屬性的標簽

a_labels = soup.find_all('a', attrs={'href': True})

hash_set=set() #創建一個哈希表，避免對同一個網站重復截圖，每當訪問一個網站后，將網址加入到哈希表中，如果哈希表中已經有這個網址，則不再截圖

#獲取所有標簽中的href對應的值，即超鏈接

for a in a_labels:

s=a.get('href')

if s not in hash_set: #如果這個超鏈接不在哈希表中

hash_set.add(s) #添加這超鏈接到哈希表

getScreenShot(s) #獲取這個網站的截圖

main()

總結

以上是生活随笔為你收集整理的python图片超链接_python自动获得网页上的所有超链接并全部截图的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：惠普星 Book 15 笔记本发布：搭载
下一篇： python的栈在哪个库_Python实

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python图片超链接_python自动获得网页上的所有超链接并全部截图

總結