百度云模拟登陆批量保存Python版(一)
開源地址:
老規矩,多說無益,直接亮成品
一、背景分析
相信做過爬蟲的各位都會發現各大網站為了緩解自家服務器壓力,而將我們需要的保存在云盤中,僅以分享分享鏈接的方式來分享文件。其中云盤分享又以百度云盤最為常見。
雖然說百度網盤除了限速等方面不夠良心外,對普通用戶還是比較善良的。但是,對于擁有大量鏈接需要進行保存的用戶則不夠方便。因此,一個自動保存的工具便十分有存在的必要了。
二、可行性分析
經使用fidder等抓包工具分析百度云盤接口,可以發現:
1、百度云保存所需字段需要用戶登錄才能夠請求獲得
2、百度云盤用戶登錄信息保存在Cookie中BDUSS字段中
3、百度云盤用戶保存指定鏈接有無提取碼僅僅是所需字段能否直接請求到的區別
4、存在提取碼的鏈接,需要的是進行多個請求,請求到正確的Cookie中的一個字段后,用戶便能夠請求到該分享保存所需的字段
三、流程設計
1、首次登陸
Created with Rapha?l 2.2.0嘗試登陸進行登陸驗證驗證成功?登陸成功 保存Cookieyesno2、文件分析及保存
Created with Rapha?l 2.2.0加載Cookie信息登陸由分享鏈接提取所需字段有無提取碼?獲取所需Cookie字段請求成功?提取成功 保存至網盤指定目錄yesnoyesno3、系統整體設計
Created with Rapha?l 2.2.0開始加載現有Cookie進行登錄有無Cookie文件?加載Cookie字段,登陸成功保存分享文件需要保存下一個?退出進行登錄,并保存Cookie登陸成功?yesnoyesnoyesno四、一些建議
1、內容請求函數的建議
相信有時候大家都會因為爬蟲網絡請求過程中,由于訪問過于頻繁等原因,會出現對方服務器拒絕連接,而導致連接中斷,程序報錯停止等問題。這在爬蟲過程中是致命的。
在這里給出一種解決方案,僅供參考
注意:該方法需要檢測請求得到的內容是否為空,但是這總比程序意外停止好吧。由于是批量保存,所以可以跳過。
2、結構的建議
可以單獨創建一個登陸的類,然后文件保存類繼承這個類。當然以后要實現其他功能時,可以繼承這個登陸類。
五、最后
感謝大家的閱讀,該過程較為簡單,具體實現以及相關參數構造可以自己通過抓包分析,當然也可以通過閱讀博主后續博客。
有需要的同學可以下載該工具
鏈接:https://blog.csdn.net/Mr_June/article/details/93487301
再次謝謝大家愿意花費寶貴時間閱讀本文
總結
以上是生活随笔為你收集整理的百度云模拟登陆批量保存Python版(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 100道iOS面试题
- 下一篇: python读json文件数组_如何在p