大数据采集入门——网络爬虫技术——Selenium
Selenium自動化測試
Selenium是一個(gè)免費(fèi)的分布式的自動化測試工具,其測試能夠直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣,支持的瀏覽器包括ie、ff、safari、opera、chrome。
【安裝】
A、安裝Selenium工具包
B、安裝webdriver,如果是谷歌瀏覽器,則需下載一個(gè)驅(qū)動chromedriver
下載路徑:
https://chromedriver.chromium.org/downloads
查看當(dāng)前谷歌瀏覽器的版本信息:
下載對應(yīng)的版本驅(qū)動
將其解壓縮到谷歌瀏覽器的安裝路徑下,即可
【幾個(gè)重要的庫】
import time
from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from lxml import etree
【幾個(gè)重要的方法】
#等待目標(biāo)可以操作
input = wait.until(
EC.presence_of_all_elements_located((By.CSS_SELECTOR,選擇指示))
)
#等待按鈕可操作
submit = wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR, 選擇指示))
)
#等待值為某個(gè)值
wait.until(
EC.text_to_be_present_in_element((By.CSS_SELECTOR,“#J_bottomPage > span.p-num > a.curr”),str(page_number))
)
time.sleep(10)
【爬取網(wǎng)頁,搜索內(nèi)容】
Selenium的具體使用,還有很多知識點(diǎn),內(nèi)容比較多且雜,建議可以通過學(xué)習(xí)其官方文檔,來展開深入學(xué)習(xí)。
這里是傳送門
【xpath 訪問網(wǎng)頁元素】
XPath 是一門在 XML 文檔中查找信息的語言。XPath 用于在 XML 文檔中通過元素和屬性進(jìn)行導(dǎo)航,其使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或節(jié)點(diǎn)集。節(jié)點(diǎn)是通過沿著路徑 (path) 或者步 (steps) 來選取的。
常用路徑表達(dá)式含義
謂詞的使用:
常用功能函數(shù)
選取若干路徑
總結(jié)
以上是生活随笔為你收集整理的大数据采集入门——网络爬虫技术——Selenium的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 迭代器以及迭代器的作用
- 下一篇: monaco-editor 监听保存按钮