selenium 获取最新页面源代码_Selenium获取网页源码
寫在前面
Python+Selenium可以做網(wǎng)絡爬蟲。所以,我們可以從網(wǎng)頁源碼中爬出想要的信息。
Selenium的page_source方法可以獲取到頁面源碼。獲取到源碼以后可以再查找自己想要的信息。
源碼保存
為了方便查看網(wǎng)頁源碼,我們可以借用python提供的方法,將獲取到的網(wǎng)頁源碼寫入到html文件中。
#get_source.py
#www.testclass.cn
#Altumn
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.testclass.cn/")
driver.maximize_window()
driver.implicitly_wait(10)
page = driver.page_source
#打印源碼,防止亂碼加上編碼格式;
print(page.encode("utf8"))
#保存網(wǎng)頁源碼名稱為:testclass_cn.html,存儲路徑為工程根目錄;
f=open('./testclass_cn.html',mode="w",encoding="utf-8")
f.write(page)
存儲的網(wǎng)頁效果(局部截圖):
源碼操作
成功獲取源碼以后,我們可以在源碼中繼續(xù)查找想要的信息。
例如,我想要獲取該頁面上所有關于‘.html’鏈接的信息。或者我們把抓取的URL集保存到本地文檔中。
#get_source.py
#www.testclass.cn
#Altumn
from selenium import webdriver
import re
driver = webdriver.Chrome()
driver.get("https://www.testclass.cn/")
driver.maximize_window()
driver.implicitly_wait(10)
page = driver.page_source
#用正則表達式匹配URL集;
url_list = re.findall('href=\"(.*?)\"', page, re.S)
#打印出含有".html"的URL集
for url in url_list:
if ".html" in url:
print(url)
#存儲獲取到的URL到data.txt;
with open('data.txt','w') as f:
for url in url_list:
f.write(url + '\n')
溫馨提示:歡迎加入軟件測試學習交流QQ群:670250199
總結(jié)
以上是生活随笔為你收集整理的selenium 获取最新页面源代码_Selenium获取网页源码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手机端应用类型
- 下一篇: 牛逼的 弹出层 layer !!!