日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PowerBI也能做爬虫:爬取豆瓣Top电影排行榜

發布時間:2024/5/14 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PowerBI也能做爬虫:爬取豆瓣Top电影排行榜 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于簡單的頁面數據爬取,其實使用PowerBI就可以可視化直接實現了,不需要另外寫爬蟲程序。本文以爬取豆瓣Top250電影排行榜示例說明下操作的基本過程。

一、分析URL規律及網頁結構

打開豆瓣電影Top 250 頁面:https://movie.douban.com/top250

觀察每頁有25部電影,總共10頁

觀察第二頁開始,URL的變化

第二頁https://movie.douban.com/top250?start=25&filter=

第三頁https://movie.douban.com/top250?start=50&filter=

……

每一頁請求的URL帶上參數start=25*(頁數-1)即可

二、獲取數據示例

首先需設置預覽功能:打開文件—選項,勾選新web表推理

輸入URL地址https://movie.douban.com/top250?start=0&filter=

PowerBI已經初步識別了頁面的數據

但是發現識別的數據不太準確,需要修改,點擊“使用示例添加表”進去手動識別調整

比如我們發現PowerBI自動識別的第2列“電影名”不對,只識別了其中一部分

新增我們需要爬取的列

在單元格輸入我們需要爬取的類型,PowerBI就會自動識別

輸入完后,發現第二行不是應是霸王別姬,但是沒有識別出來。

插入第二行,幫助系統識別規律。

同理,檢查其他行、列。

注意到界面一直提示“找不到下面一列或多列示例值得CSS選擇器:年代/國家/類型”

相關數據PowerBI提取不出來,原因是想要的這個數據,并不能用CSS表達式選擇得出來

使用火狐瀏覽器檢查下,并不能提取到CSS表達式。因此這類問題只能另想辦法了,比如擴大范圍抓取了,后續再做數據整理。

三、構建爬蟲函數

進去Power Query后臺,對查詢新建頁碼參數

將頁碼參數插入URL

設置源,將URL拆分成三段,為:

https://movie.douban.com/top250?start=

頁面

&filter=

創建函數:對電影查詢,右鍵創建函數

四、構建頁碼列表

新建空白查詢,使用List.Numbers(0,10,25)創建等差數列

將List轉換為表,并修改類型為文本

五、調用自定義函數

對新建的查詢調用自定義函數

展開列,即得到需要的數據

添加索引列,處理下排名

至此Top250電影數據爬取完畢

總結

以上是生活随笔為你收集整理的PowerBI也能做爬虫:爬取豆瓣Top电影排行榜的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。