爬取虎牙之一:(王者荣耀主播信息普通爬取)
生活随笔
收集整理的這篇文章主要介紹了
爬取虎牙之一:(王者荣耀主播信息普通爬取)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
使用工具 jsoup
對于新手而言,jsoup無疑是最簡單的抓取工具之一,強大的解析能力讓人方便使用,對于我們新手而言,獲取只是看過爬蟲書或者資料用簡單的例子爬取所有鏈接,想要爬取想要的內容,首先要熟悉html網頁的架構,然后還要熟悉jsoup的簡單用法,只會遍歷所有鏈接是不行的。
首先打開王者榮耀分欄,看到這樣的界面:
;
如果我們想爬取所有主播的信息,我們首先要確定的是要爬取的是主播的信息而不是查看網頁源碼:
我們發現這里雖然有些亂,每個主播的類,類中含有的內容確是可以找到的,我們發現game-live-item這個類是主播的最大類,主播的基本信息都藏在他的內容里或者他的子class中,這樣我們就可以第一次遍歷這個最大的類,然后從這個類中我們需要什么,再篩選什么詳細看代碼:
輸出的內容為:
https://www.huya.com/housangun大神推薦 射手新出裝-新賽季魯3槍上王者 China丶猴三棍 40.5萬 : 2336 https://www.huya.com/131499年度推薦 藍光4M 寒冰:單排上第三個王者~ 東辰-寒冰 18.0萬 : 2336 https://www.huya.com/942020大神推薦 藍光4M 上好佳:賽季初 5排怒撞職業小代 求虐! 上好佳 10.9萬 : 2336 https://www.huya.com/chaojie大神推薦 無敵小射手已上線!! 東辰-小潮 10.7萬 : 2336 https://www.huya.com/tingxiaojie白金推薦 88勝率貂蟬重新沖國服 Dae-婷小姐 3.6萬 : 2336 https://www.huya.com/11428718大神推薦 國服第一露娜上第四個王者! 電競浪子傲寒 5.4萬 : 2336 *************************** ***************************這僅僅是爬取第一頁的內容。我們如果想要爬取所有王者榮耀主播的信息或者甚至虎牙直播的信息,理論上應該是爬取完當頁的信息之后再爬取下一頁的鏈接,但是你會發現無濟于事,因為這個頁面和第二個頁面是一個鏈接。這個頁面是ajax的動態生成頁面,傳統爬取靜態方法的方式只能告一段落。采用其他方法。下一篇在做介紹。
如果對后端、爬蟲等感性趣歡迎關注我的個人公眾號交流:bigsai
總結
以上是生活随笔為你收集整理的爬取虎牙之一:(王者荣耀主播信息普通爬取)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 爬虫初识jsoup
- 下一篇: 爬取虎牙之二:试用htmlunit模拟j