當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据采集入门——网络爬虫技术——Selenium

發(fā)布時(shí)間：2023/12/10 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据采集入门——网络爬虫技术——Selenium 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Selenium自動化測試

Selenium是一個(gè)免費(fèi)的分布式的自動化測試工具，其測試能夠直接運(yùn)行在瀏覽器中，就像真正的用戶在操作一樣，支持的瀏覽器包括ie、ff、safari、opera、chrome。

【安裝】
A、安裝Selenium工具包

pip install selenium

B、安裝webdriver，如果是谷歌瀏覽器，則需下載一個(gè)驅(qū)動chromedriver
下載路徑：
https://chromedriver.chromium.org/downloads

查看當(dāng)前谷歌瀏覽器的版本信息：

下載對應(yīng)的版本驅(qū)動

將其解壓縮到谷歌瀏覽器的安裝路徑下，即可

【幾個(gè)重要的庫】
import time
from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from lxml import etree
【幾個(gè)重要的方法】
#等待目標(biāo)可以操作
input = wait.until(
EC.presence_of_all_elements_located((By.CSS_SELECTOR,選擇指示))
)
#等待按鈕可操作
submit = wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR, 選擇指示))
)
#等待值為某個(gè)值
wait.until(
EC.text_to_be_present_in_element((By.CSS_SELECTOR,“#J_bottomPage > span.p-num > a.curr”),str(page_number))
)
time.sleep(10)
【爬取網(wǎng)頁，搜索內(nèi)容】

#打開瀏覽器 browser = webdriver.Chrome() #搜索網(wǎng)頁 browser.get("https://www.baidu.com") #網(wǎng)頁等待0.05s wait = WebDriverWait(browser,50) #打開網(wǎng)頁 browser.get('https://www.jd.com/') #獲取網(wǎng)頁源碼，返回頁面資源（內(nèi)容） html = browser.page_source #xpath解析網(wǎng)頁內(nèi)容，進(jìn)行元素提取 items = html.xpath('//li[@class="gl-item"]')

Selenium的具體使用，還有很多知識點(diǎn)，內(nèi)容比較多且雜，建議可以通過學(xué)習(xí)其官方文檔，來展開深入學(xué)習(xí)。

這里是傳送門

【xpath 訪問網(wǎng)頁元素】
XPath 是一門在 XML 文檔中查找信息的語言。XPath 用于在 XML 文檔中通過元素和屬性進(jìn)行導(dǎo)航，其使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或節(jié)點(diǎn)集。節(jié)點(diǎn)是通過沿著路徑 (path) 或者步 (steps) 來選取的。

常用路徑表達(dá)式含義

謂詞的使用：

常用功能函數(shù)
選取若干路徑

總結(jié)

以上是生活随笔為你收集整理的大数据采集入门——网络爬虫技术——Selenium的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：迭代器以及迭代器的作用
下一篇： monaco-editor 监听保存按钮