python为啥爬取数据会有重复_使用python爬取B站千万级数据
Python(發音:英[?pa?θ?n],美[?pa?θɑ:n]),是一種面向對象、直譯式電腦編程語言,也是一種功能強大的通用型語言,已經具有近二十年的發展歷史,成熟且穩定。它包含了一組完善而且容易理解的標準庫,能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰,與其它大多數程序設計語言不一樣,它使用縮進來定義語句。
Python支持命令式程序設計、面向對象程序設計、函數式編程、面向切面編程、泛型編程多種編程范式。與Scheme、Ruby、Perl、Tcl等動態語言一樣,Python具備垃圾回收功能,能夠自動管理存儲器使用。它經常被當作腳本語言用于處理系統管理任務和網絡程序編寫,然而它也非常適合完成各種高級任務。Python虛擬機本身幾乎可以在所有的作業系統中運行。使用一些諸如py2exe、PyPy、PyInstaller之類的工具可以將Python源代碼轉換成可以脫離Python解釋器運行的程序。
粉絲獨白
說起熱門的B站相信很多喜歡玩動漫的,看最有創意的Up主的同學一定非常熟悉。我突發奇想學Python這么久了,為啥不用Python爬取B站中我關注的人,已經關注的人他們關注的人,看看全站里面熱門的UP主都是是哪些。
要點:
- 爬取10萬用戶數據
- 數據存儲
- 數據詞云分析
1.準備階段
寫代碼前先構思思路:既然我要爬取用戶關注的用戶,那我需要存儲用戶之間的關系,確定誰是主用戶,誰是follower。
存儲關系使用數據庫最方便,也有利于后期的數據分析,我選擇sqlite數據庫,因為Python自帶sqlite,sqlite在Python中使用起來也非常方便。
數據庫中需要2個表,一個表存儲用戶的相互關注信息,另一個表存儲用戶的基本信息,在B站的用戶體系中,一個用戶的mid號是唯一的。
然后我還需要一個列表來存儲所以已經爬取的用戶,防止重復爬取,畢竟用戶之間相互關注的現象也是存在的,列表中存用戶的mid號就可以了。
2.新建數據庫
先寫建數據庫的代碼,數據庫中放一個用戶表,一個關系表:
3.爬取前5頁的用戶數據
我需要找到B站用戶的關注列表的json接口,很快就找到了,地址是:
https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7
其中vimd=后的參數就是用戶的mid號
pn=1指用戶的關注的第一面用戶,一面顯示20個用戶
因為B站的隱私設置,一個人只能爬取其他人的前5頁關注,共100人。
整個爬取頁面的思路比較簡單,首先設置header,用requests庫進行API請求,獲得關注的用戶數據列表。
我們爬取前5頁,每一頁的數據進行簡單的處理,然后轉為字典數據進行獲取mid,uname,sign3個維度的數據,最后save()函數存入db.
4.存入數據庫
我們數據集里面一共有2個表,一個用戶列表,用來存儲所以的用戶信息,一個是用戶之間的關注信息。
5.探秘是熱門UP主
打算利用已經爬取到本地的數據進行詞云的生成,來看一下這10萬用戶中共同的關注的哪些UP主出現的次數最多。
代碼的思路主要是從數據庫中獲取用戶的名字,重復的次數越多說明越多的用戶關注,然后我使用fate的一張圖片作為詞云的mask圖片,最后生成詞云圖片。
最后一起來看一下詞云圖
可以看出蕾絲,暴走漫畫,木魚水心,參透之C君,papi醬等B站大UP主都是熱門關注。
Python可以做什么?
web開發和 爬蟲是比較適合 零基礎的
自動化運維 運維開發 和 自動化測試 是適合 已經在做運維和測試的人員
大數據 數據分析 這方面 是很需要專業的 專業性相對而言比較強
科學計算 一般都是科研人員 在用
機器學習 和 人工智能 首先 學歷 要求高 其次 高數要求高 難度很大
總結
以上是生活随笔為你收集整理的python为啥爬取数据会有重复_使用python爬取B站千万级数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python实现简易搜索引擎(含代码)
- 下一篇: python建筑案例_有哪些关于 Pyt