日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识点讲解五:处理js异步加载问题

發(fā)布時間:2025/4/5 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识点讲解五:处理js异步加载问题 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 前言
  • 環(huán)境
  • 代碼思路
  • 原代碼

前言

在新聞網(wǎng)站中大多采用的是異步加載模式,新聞條目會隨滾動條的滾動而逐漸加載。當爬蟲訪問這類網(wǎng)站時得到的HTML數(shù)據(jù)僅僅是我們看到的頁面數(shù)據(jù),只有當我們向下滾動時,網(wǎng)頁的源代碼才會同步更新。例如:騰訊新聞,處理這類JS異步加載的問題,這里用selenium來解決。

環(huán)境

  • Python 3.6.5
  • 需要安裝的包:selenium
  • 編譯器:sublime text 3

代碼思路

導入需要用到的Python包

import selenium,time from selenium import webdriver

用打開瀏覽器

driver = webdriver.Chrome(executable_path='chromedriver.exe')

輸入我們需要爬取的網(wǎng)站

driver.get("https://new.qq.com/ch/milite/")

如果程序執(zhí)行錯誤,瀏覽器沒有打開,那么應該是沒有裝 Chrome 瀏覽器或者 Chrome 驅動沒有配置在環(huán)境變量里。下載驅動,然后將驅動文件路徑配置在環(huán)境變量即可。

驅動器下載傳送門

將網(wǎng)頁的滾動條拉到底部,觸發(fā)JS加載新數(shù)據(jù)

jsCode = "var q=document.documentElement.scrollTop=100000" driver.execute_script(jsCode)

休息3秒,從JS異步加載的完成到新聞頁面的更新需要一些時間

time.sleep(3)

進行標簽定位,定位到class="item-pics"的標簽

div = driver.find_elements_by_class_name("item-pics") for each in div:each = each.find_element_by_tag_name("a")

打印爬取到的內容

print(each.text)

原代碼

#這是一個軍事新聞數(shù)據(jù)采集腳本 import selenium,time from selenium import webdriverif __name__ == '__main__':driver = webdriver.Chrome(executable_path='chromedriver.exe')driver.get("https://new.qq.com/ch/milite/") for each in range(1,10):jsCode = "var q=document.documentElement.scrollTop=100000"driver.execute_script(jsCode)time.sleep(3)print(each)time.sleep(3)div = driver.find_elements_by_class_name("item-pics")for each in div:each = each.find_element_by_tag_name("a")print(each.text)

總結

以上是生活随笔為你收集整理的知识点讲解五:处理js异步加载问题的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。