日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python 爬虫篇-爬取web页面所有可用的链接实战演示,展示网页里所有可跳转的链接地址

發(fā)布時間:2025/4/16 python 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫篇-爬取web页面所有可用的链接实战演示,展示网页里所有可跳转的链接地址 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原理也很簡單,html 鏈接都是在 a 元素里的,我們就是匹配出所有的 a 元素,當然 a 可以是空的鏈接,空的鏈接是 None,也可能是無效的鏈接。

我們通過 urllib 庫的 request 來測試鏈接的有效性。
當鏈接無效的話會拋出異常,我們把異常捕獲出來,并提示出來,沒有異常就是有效的,我們直接顯示出來就好了。

需要用到的技術(shù):
python+selenium
python+selenium 基本環(huán)境搭建

urllib.request
這是 python 自帶的,直接就可以使用。

# -*- coding: GBK -*- from selenium import webdriver import urllib.request from urllib.request import URLError# 調(diào)用chrome瀏覽器并后臺運行 option=webdriver.ChromeOptions() option.add_argument('headless') driver = webdriver.Chrome(chrome_options=option)driver.get("http://www.tencent.com/") # 要測試的頁面 urls = driver.find_elements_by_xpath("//a") # 匹配出所有a元素里的鏈接print("當前頁面的可用鏈接如下:")for url in urls:u=url.get_attribute('href')if u == 'None': # 很多的a元素沒有鏈接,所有是Nonecontinuetry:response=urllib.request.urlopen(url.get_attribute("href")) # 可以通過urllib測試url地址是否能打開except:print('Error url: ' + url.get_attribute('href')) # 把測試不通過的url顯示出來else: print(url.get_attribute("href")) # 測試通過的url展示出來driver.close()

運行成功效果圖:

喜歡的點個贊?吧!

總結(jié)

以上是生活随笔為你收集整理的Python 爬虫篇-爬取web页面所有可用的链接实战演示,展示网页里所有可跳转的链接地址的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。