GitHub 上有哪些好用的爬虫?
GitHub 上有哪些好用的爬蟲?
?
在開發實際項目的時候,你經常沒有足夠多的數據,需要自己去想辦法獲取,這個時候常常需要用到爬蟲。然而找來找去,很可能找了很久都找不到既免費又好用的爬蟲,今天就從好的爬蟲開始說起,這很可能是項目成功的開始。
綜述類項目與學習資料
首先給大家介紹一些非常優秀的綜述和學習類項目,方便大家快速索引找到所需要的資源。
1、awesome-spider
地址:https://github.com/facert/awesome-spider
這是 ID 為 facert 的一個知乎工程師開源的,Star 6000+,內容如下:
這一款爬蟲,里面搜集了幾乎所有可以爬取的中文網址,從知乎豆瓣到知網,抖音微博到 QQ,還有很多的不可描述的網站,你懂的。
2、Nyspider
地址:https://github.com/Nyloner/Nyspider
這是 ID 為 Nyloner 的一個今日頭條的工程師弄的,Star 1000+,風格與上面的項目大有不同。
可以看出,都是各類網址。這很頭條,跟這位小哥哥的工作內容估計有關系。
3、awesome-python-login-model
地址:https://github.com/CriseLYJ/awesome-python-login-model
這是 ID 為 CriseLYJ (職業不詳) 的用戶,這個項目用于模擬各種網址登陸,也包含一些簡單的爬蟲,Star 6000+。
先從這個項目開始分析各大網站的登錄方式,非常有用,可謂摸清對手再動手。
4、python-spider
地址:https://github.com/Jack-Cherish/python-spider
這是 ID 為 Jack-Cherish 的東北大學的一個學生整理的學習 python 爬蟲的資料,Star 6000+,包含不少的實戰項目,非常適合想學習的朋友。
其他還有一些項目,不再一一介紹。
https://github.com/jhao104/proxy_poolhttps://github.com/Ehco1996/Python-crawler
優秀圖片 / 視頻項目
筆者的精力多在圖像和視頻,所以下面各自介紹一個功能強大,簡單好用的圖片和視頻爬蟲。
工具親測長期有效,省去了很多找爬蟲工具的時間,早用早好。
1、Google,Baidu,Bing 三大搜素引擎圖片爬蟲
地址:https://github.com/sczhengyabin/Image-Downloader
這個爬蟲由 ID 為 sczhengyabin 的用戶整理,可以按要求爬取百度、Bing、Google 上的圖片,我已經用了幾年了,提供了非常人性化的 GUI 方便操作,使用方法如下:
使用 python image_downloader_gui.py 調用 GUI 界面,配置好參數 (關鍵詞,路徑,爬取數目等),關鍵詞可以直接在這里輸入也可以選擇從 txt 文件中選擇。
可以配置需要爬取的樣本數目,這里一次爬了 2000 張,妥妥的 3 分鐘搞定。
這個爬蟲足夠滿足小型項目初始數據集的積累 (爬幾千張高質量圖片妥妥的),結果命名也非常整齊規范, 最大的優勢就是穩定啊,不會三天兩天不能用了。
2、各大視頻網站爬蟲
地址:https://github.com/iawia002/annie
由 ID 為 iawia002 的用戶整理,Annie 是一款以 go 語言編碼的視頻下載工具,使用便捷并支持 youtube,騰訊視頻,抖音等多個網站視頻和圖像的下載,收錄站點如下,可以說是該有的都有的:
雖然這個項目可以下載圖片,但是我們還是來用它下載視頻吧,使用方法很簡單:
annie [可選參數]http://… (視頻網址)視頻會下載到當前目錄,至于那些可選參數,趕緊去摸索吧。
總結
以上是生活随笔為你收集整理的GitHub 上有哪些好用的爬虫?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数字线索: F-35单价已低于四代机,其
- 下一篇: 区块链开发之搭建以太坊私有链