python图片超链接_python自动获得网页上的所有超链接并全部截图
需要安裝python的selenium模塊,這是一個瀏覽器自動化的框架。然后我是使用chrome瀏覽器的,所以還需要安裝一個chromedriver。還有一個爬蟲框架bs4。
selenium和bs4直接用pip安裝,在終端下執行:
pip install selenium
pip install Beautifulsoup4
chromedriver安裝參考這個網址:
https://www.cnblogs.com/technologylife/p/5829944.html
然后進入正文,總的流程就是解析網址的html,取出超鏈接逐個訪問,然后截圖到本地的文件夾里,目前實現的版本還沒有分類,只是把圖片全部存到一個文件夾里。
總的代碼如下:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import requests
from bs4 import BeautifulSoup
import time
i=0 #目前暫時先用一個計數來表示圖片的文件名
def getScreenShot(url):
'''
此函數用于根據url訪問網頁,并截圖到本地文件夾
'''
global i #全局變量
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu') #設置瀏覽器參數
brower = webdriver.Chrome(chrome_options=chrome_options) #創建一個chrome的webdrive
brower.maximize_window() #設置全屏截圖
js_height="return document.body.clientHeight"
picName = "/home/orange/視頻/"+str(i)+".png" #指定保存文件的文件名
brower.get(url) #獲取url
i+=1
try:
brower.get(url)
k=1
height=brower.execute_script(js_height)
#獲取整張網頁的截圖,而不只是當前屏幕范圍內的
while True:
if k*500
js_move="window.scrollTo(0,{})".format(k*500)
print(js_move)
brower.execute_script(js_move)
time.sleep(0.2)
height=brower.execute_script(js_height)
k+=1
else:
break
scroll_width = brower.execute_script('return document.body.parentNode.scrollWidth')
scroll_height = brower.execute_script('return document.body.parentNode.scrollHeight')
brower.set_window_size(scroll_width, scroll_height)
brower.get_screenshot_as_file(picName)
time.sleep(0.1)
except Exception as e:
print(picName,e)
brower.save_screenshot(picName) #保存截圖
brower.close() #關閉webdriver
def getHTMLText(url):
'''
此函數用于獲取網頁的html文檔
'''
try:
#獲取服務器的響應內容,并設置最大請求時間為6秒
res = requests.get(url, timeout = 6)
#判斷返回狀態碼是否為200
res.raise_for_status()
#設置該html文檔可能的編碼
res.encoding = res.apparent_encoding
#返回網頁HTML代碼
return res.text
except:
return '產生異常'
def main():
'''
主函數
'''
#目標網頁,這個可以換成一個你想要的網站
url = 'https://www.cnblogs.com/huwt/'
demo = getHTMLText(url) #獲取html代碼
#解析HTML代碼
soup = BeautifulSoup(demo, 'html.parser')
#模糊搜索HTML代碼的所有包含href屬性的標簽
a_labels = soup.find_all('a', attrs={'href': True})
hash_set=set() #創建一個哈希表,避免對同一個網站重復截圖,每當訪問一個網站后,將網址加入到哈希表中,如果哈希表中已經有這個網址,則不再截圖
#獲取所有標簽中的href對應的值,即超鏈接
for a in a_labels:
s=a.get('href')
if s not in hash_set: #如果這個超鏈接不在哈希表中
hash_set.add(s) #添加這超鏈接到哈希表
getScreenShot(s) #獲取這個網站的截圖
main()
總結
以上是生活随笔為你收集整理的python图片超链接_python自动获得网页上的所有超链接并全部截图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 惠普星 Book 15 笔记本发布:搭载
- 下一篇: python的栈在哪个库_Python实