日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

selenium 获取最新页面源代码_Selenium获取网页源码

發(fā)布時間:2023/12/18 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 selenium 获取最新页面源代码_Selenium获取网页源码 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

寫在前面

Python+Selenium可以做網(wǎng)絡爬蟲。所以,我們可以從網(wǎng)頁源碼中爬出想要的信息。

Selenium的page_source方法可以獲取到頁面源碼。獲取到源碼以后可以再查找自己想要的信息。

源碼保存

為了方便查看網(wǎng)頁源碼,我們可以借用python提供的方法,將獲取到的網(wǎng)頁源碼寫入到html文件中。

#get_source.py

#www.testclass.cn

#Altumn

from selenium import webdriver

driver = webdriver.Chrome()

driver.get("https://www.testclass.cn/")

driver.maximize_window()

driver.implicitly_wait(10)

page = driver.page_source

#打印源碼,防止亂碼加上編碼格式;

print(page.encode("utf8"))

#保存網(wǎng)頁源碼名稱為:testclass_cn.html,存儲路徑為工程根目錄;

f=open('./testclass_cn.html',mode="w",encoding="utf-8")

f.write(page)

存儲的網(wǎng)頁效果(局部截圖):

源碼操作

成功獲取源碼以后,我們可以在源碼中繼續(xù)查找想要的信息。

例如,我想要獲取該頁面上所有關于‘.html’鏈接的信息。或者我們把抓取的URL集保存到本地文檔中。

#get_source.py

#www.testclass.cn

#Altumn

from selenium import webdriver

import re

driver = webdriver.Chrome()

driver.get("https://www.testclass.cn/")

driver.maximize_window()

driver.implicitly_wait(10)

page = driver.page_source

#用正則表達式匹配URL集;

url_list = re.findall('href=\"(.*?)\"', page, re.S)

#打印出含有".html"的URL集

for url in url_list:

if ".html" in url:

print(url)

#存儲獲取到的URL到data.txt;

with open('data.txt','w') as f:

for url in url_list:

f.write(url + '\n')

溫馨提示:歡迎加入軟件測試學習交流QQ群:670250199

總結(jié)

以上是生活随笔為你收集整理的selenium 获取最新页面源代码_Selenium获取网页源码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。