适合python爬虫使用的浏览器_python爬虫:使用Selenium模拟浏览器
一、首先準備環境
1、window10環境下
2、Selenium最新版本
pip install Selenium
3、下載瀏覽器驅動
下載解壓后,將所在的目錄添加系統的環境變量中。當然你也可以將下載下來的驅動放到python安裝目錄的lib目錄中,因為它本身已經存在于環境變量(我就是這么干的)。
image.png
4、BeautifulSoup解析
pip install bs4
5、下載瀏覽器
注意:瀏覽器驅動一定要與瀏覽器對應
二、就可以開始寫代碼了
1、要使用selenium先需要定義一個具體browser對象,這里就定義的時候就看你電腦安裝的具體瀏覽器和安裝的哪個瀏覽器的驅動。這里以火狐瀏覽器為例:
from selenium import webdriver
# 地址是瀏覽器驅動文件所在的路徑
browser = webdriver.Firefox(executable_path=r"C:\Python3.6.4\Lib\geckodriver.exe")
2、再模擬打開貼吧首頁:
browser.get("https://tieba.baidu.com/index.html")
3、再模擬滾動條滾動到底部
# 這個是循環四次,往下翻滾四次
for i in range(1, 5):
# 滑動鼠標到網頁底部
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
# 模擬用戶的點擊事件
browser.find_element_by_class_name("kuMore").click()
time.sleep(1)
4、最后再使用BeautifulSoup,解析圖片標簽:
from bs4 import BeautifulSoup
html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")
# 關閉瀏覽器
browser.close()
5、將數據保存到數據庫中
總結
以上是生活随笔為你收集整理的适合python爬虫使用的浏览器_python爬虫:使用Selenium模拟浏览器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql 自身参照自身_mysql个人
- 下一篇: python torch库_python