日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析

發布時間:2024/5/14 编程问答 66 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 項目說明
  • Scrapy框架
    • 網頁分析
    • 爬蟲代碼
      • items
      • spiders
      • pipelines
      • main
      • 爬取結果
  • PowerBI分析
    • 分析結果

項目說明

近期在學習Python爬蟲,看了很多大佬的項目,厲害又有趣!五一在家把《我們的時代》看完了,在豆瓣上評分后,隨便逛了逛,簡單瀏覽了一下Top250的書單。突然想到可以把這些數據爬到本地,后期通過腳本,隔一段時間就自動爬一下,看下有無新書上榜,對愛看書又數據控的人來說還蠻實用的哈哈。

網上搜了一下,爬豆瓣網的案例還挺多的,這里我試著用scrapy框架來爬豆瓣圖書Top250的相關數據,再導入PowerBI分析數據,后續做到自動爬數據,一鍵更新分析結果。

豆瓣TOP250圖書分析

該網址的數據會不定期更新,感興趣的同學可以收藏~~~

Scrapy框架

網頁分析

瀏覽網站,確定要爬取的數據

爬蟲代碼

打開Anaconda Prompt,創建scrapy項目scrapy startproject doubanBook

進入項目路徑,打開doubanBook文件夾

items

spiders

pipelines

main

爬取結果

PowerBI分析

  • 出版信息列包含了很多信息,直接用power query清洗整理
  • 評分人數、評分兩列也需稍微處理一下


分析結果

說幾點有趣的發現,時間截至2020.5(大家也可以隨便點點,說不定就能邂逅一本好書呢~)

  • Top250的圖書中86.4%是在1996年——2015年中出版,其中上榜數最多的年份是2006,有22本書。
  • 三毛/7本、金庸/6本、王小波/5本、魯迅/5本分別是上榜作品數最多的四位作家
  • 2018-2020年出版的新書中,僅有三部上榜:《房思琪的初戀樂園》、《失蹤的孩子》和《你當像鳥飛往你的山》
  • 哥倫比亞以三部小說斬獲了平均評分人數最多的國家,以色列僅憑借一部《人類簡史》也排在了第四。
  • 我們平時在選書選版本時,可以優先關注人民文學、上海譯文、三聯、南海、譯林這幾家出版社
  • 以書上的定價作為參考,考慮網購折扣,假設所有圖書都是8折,那么我們只需花費約8000元就可以把豆瓣Top250的所有圖書(人類最寶貴的財富)帶回家了哈哈哈

總結

以上是生活随笔為你收集整理的Scrapy爬取豆瓣图书Top250数据,在PowerBI中可视化分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。