日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

怎么加载csv_python爬虫入门实战(四)!爬取动态加载的页面

發布時間:2024/9/27 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 怎么加载csv_python爬虫入门实战(四)!爬取动态加载的页面 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天的主題是爬取動態網頁的經驗分享,以cocos論壇為例子進行分享。(官方不會打我吧 )

配置環境

為什么選擇cocos論壇呢?因為自己在瀏覽論壇時,發現標題內容會隨著滾動條的位置而動態添加。

環境: python3 + requests 。還要引入幾個系統庫。參考如下:

分析網頁

以chrome瀏覽器為例,空白處 右鍵->檢查 進入網頁分析模式,選擇 Network 中的XHR,滾動條往下滾,觀察右側加載了什么文件。

在網頁分享模式下,點擊剛才下載的文件,查看里面的內容,發現對一個地址使用了GET方法,并傳入了頁碼的參數。

再看看返回的內容是一個json字符串。

這個 json字符串里就有我們想要內容。一起看下如何用requests 發送參數,并返回Json 結果。

只需要根據地址,傳入一個 headers 告訴網頁我們要接收json字符串。

解析json

json是一種數據存儲格式,可以被多種語言解析,一般用于數據傳輸。

由前一張圖,可以看到所有文章列表在topic_list的topics中,一起看看 python3 是怎么解析的。

其中的鏈接地址可以通過打開幾個論壇內容找到規律,是由 slug 和 id 這兩個字段拼接的。

最后使用多線程 和 csv 存儲結果。(不清楚的話可以看看之前的文章哦。python爬蟲入門實戰(三)不會正則怎么辦?xpath分分鐘搞定 和 python爬蟲入門實戰(二)!快!快!快!讓爬蟲贏在起跑線!多線程)

最后,看看最終效果吧!

小結

對于動態生成的內容,我們可以通過網頁分享中下載的文件分析,并通過requests模塊模擬headers 和發送參數方法獲取數據。

這是我學到的新技能哦!如有錯誤或其他想法,歡迎留言!如果我又學到新的東西,會第一時間分享給大家哦!點個關注不迷路!


以上內容僅供個人學習使用,請勿用于商業用途。


我是白玉無冰,游戲開發小赤佬,也玩python和shell

總結

以上是生活随笔為你收集整理的怎么加载csv_python爬虫入门实战(四)!爬取动态加载的页面的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。