當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

selenium 获取最新页面源代码_Selenium获取网页源码

發(fā)布時間：2023/12/18 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 selenium 获取最新页面源代码_Selenium获取网页源码小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

寫在前面

Python+Selenium可以做網(wǎng)絡(luò)爬蟲。所以，我們可以從網(wǎng)頁源碼中爬出想要的信息。

Selenium的page_source方法可以獲取到頁面源碼。獲取到源碼以后可以再查找自己想要的信息。

源碼保存

為了方便查看網(wǎng)頁源碼，我們可以借用python提供的方法，將獲取到的網(wǎng)頁源碼寫入到html文件中。

#get_source.py

#www.testclass.cn

#Altumn

from selenium import webdriver

driver = webdriver.Chrome()

driver.get("https://www.testclass.cn/")

driver.maximize_window()

driver.implicitly_wait(10)

page = driver.page_source

#打印源碼，防止亂碼加上編碼格式；

print(page.encode("utf8"))

#保存網(wǎng)頁源碼名稱為：testclass_cn.html，存儲路徑為工程根目錄；

f=open('./testclass_cn.html',mode="w",encoding="utf-8")

f.write(page)

存儲的網(wǎng)頁效果(局部截圖)：

源碼操作

成功獲取源碼以后，我們可以在源碼中繼續(xù)查找想要的信息。

例如，我想要獲取該頁面上所有關(guān)于‘.html’鏈接的信息。或者我們把抓取的URL集保存到本地文檔中。

#get_source.py

#www.testclass.cn

#Altumn

from selenium import webdriver

import re

driver = webdriver.Chrome()

driver.get("https://www.testclass.cn/")

driver.maximize_window()

driver.implicitly_wait(10)

page = driver.page_source

#用正則表達式匹配URL集;

url_list = re.findall('href=\"(.*?)\"', page, re.S)

#打印出含有".html"的URL集

for url in url_list:

if ".html" in url:

print(url)

#存儲獲取到的URL到data.txt;

with open('data.txt','w') as f:

for url in url_list:

f.write(url + '\n')

溫馨提示:歡迎加入軟件測試學(xué)習(xí)交流QQ群：670250199

總結(jié)

以上是生活随笔為你收集整理的selenium 获取最新页面源代码_Selenium获取网页源码的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

selenium 获取最新页面源代码_Selenium获取网页源码

總結(jié)