日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【杂谈】GitHub上有哪些好用的爬虫(从Google百度,腾讯视频抖音,豆瓣知乎到不可描述)

發布時間:2025/3/20 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【杂谈】GitHub上有哪些好用的爬虫(从Google百度,腾讯视频抖音,豆瓣知乎到不可描述) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在開發實際項目的時候,你經常沒有足夠多的數據,需要自己去想辦法獲取,這個時候常常需要用到爬蟲。然而找來找去,很可能找了很久都找不到既免費又好用的爬蟲,今天就從好的爬蟲開始說起,這很可能是項目成功的開始。

作者&編輯 | 言有三

?

1 綜述類項目與學習資料

首先給大家介紹一些非常優秀的綜述和學習類項目,方便大家快速索引找到所需要的資源。

1.1、awesome-spider

地址:https://github.com/facert/awesome-spider

這是ID為facert的一個知乎工程師開源的,star6000+,內容如下:

這一款爬蟲,里面搜集了幾乎所有可以爬取的中文網址,從知乎豆瓣到知網,抖音微博到QQ,還有很多的不可描述的網站,你懂的。

1.2、Nyspider

地址:https://github.com/Nyloner/Nyspider

這是ID為Nyloner的一個今日頭條的工程師弄的,star1000+,風格與上面的項目大有不同。

可以看出,都是各類網址。這很頭條,跟這位小哥哥的工作內容估計有關系。

3、awesome-python-login-model

地址:https://github.com/CriseLYJ/awesome-python-login-model

這是ID為CriseLYJ(職業不詳)的用戶,這個項目用于模擬各種網址登陸,也包含一些簡單的爬蟲,star6000+。

先從這個項目開始分析各大網站的登錄方式,非常有用,可謂摸清對手再動手。

4、python-spider

地址:https://github.com/Jack-Cherish/python-spider

這是ID為Jack-Cherish的東北大學的一個學生整理的學習python爬蟲的資料,star6000+,包含不少的實戰項目,非常適合想學習的朋友。

其他還有一些項目,不再一一介紹。

https://github.com/jhao104/proxy_pool

https://github.com/Ehco1996/Python-crawler

?

2 優秀圖片/視頻項目

筆者的精力多在圖像和視頻,所以下面各自介紹一個功能強大,簡單好用的圖片和視頻爬蟲。

工具親測長期有效,省去了很多找爬蟲工具的時間,早用早好。

2.1、Google,Baidu,Bing三大搜素引擎圖片爬蟲

地址:https://github.com/sczhengyabin/Image-Downloader

這個爬蟲由ID為sczhengyabin的用戶整理,可以按要求爬取百度、Bing、Google上的圖片,我已經用了幾年了,提供了非常人性化的GUI方便操作,使用方法如下:

使用python image_downloader_gui.py調用GUI界面,配置好參數(關鍵詞,路徑,爬取數目等),關鍵詞可以直接在這里輸入也可以選擇從txt文件中選擇。

可以配置需要爬取的樣本數目,這里一次爬了2000張,妥妥的3分鐘搞定。

這個爬蟲足夠滿足小型項目初始數據集的積累(爬幾千張高質量圖片妥妥的),結果命名也非常整齊規范,最大的優勢就是穩定啊,不會三天兩天不能用了。

2、各大視頻網站爬蟲

地址:https://github.com/iawia002/annie

由ID為iawia002的用戶整理,Annie是一款以go語言編碼的視頻下載工具,使用便捷并支持youtube,騰訊視頻,抖音等多個網站視頻和圖像的下載,收錄站點如下,可以說是該有的都有的:

雖然這個項目可以下載圖片,但是我們還是來用它下載視頻吧,使用方法很簡單:

annie [可選參數]http://…? (視頻網址)

視頻會下載到當前目錄,至于那些可選參數,趕緊去摸索吧。

就到此為止吧。

對了,有三AI剛剛開源了一個深度學習項目,如下:

https://github.com/longpeng2008/yousan.ai

內容包含計算機視覺,語音,自然語言處理,支持caffe,tensorflow,pytorch,mxnet,paddlepaddle,darknet,deeplearning4j,matconvnet,keras,chainer,cntk,lasadge等框架,大家可以看我們的介紹文章。

【完結】給新手的12大深度學習開源框架快速入門項目

要說互聯網圈里最有權勢的那些人,搞爬蟲的高手一定位列其中,他們大概是掌握信息最多的那批人了,善于整合抓取資源,如果身邊有這樣的大佬,一定要牢牢抱著。

雜談系列文章

【雜談】深度學習必備,各路免費爬蟲一舉拿下

【雜談】想成為機器學習學霸?先學會做筆記吧

【雜談】那些酷炫的深度學習網絡圖怎么畫出來的?

【雜談】如何學會看arxiv.org才能不錯過自己研究領域的最新論文?

【雜談】提升寫代碼效率不得不做的三件事

【雜談】為什么你學了AI,企業卻不要你

【雜談】白身,初識,不惑,有識,不可知,你處于深度學習工程師哪一重境界了

【雜談】三人行必有AI,你會在其一嗎?

感謝各位看官的耐心閱讀,不足之處希望多多指教。后續內容將會不定期奉上,歡迎大家關注有三公眾號 有三AI

總結

以上是生活随笔為你收集整理的【杂谈】GitHub上有哪些好用的爬虫(从Google百度,腾讯视频抖音,豆瓣知乎到不可描述)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。