日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

爬一爬那些年你硬盘存过的老师

發(fā)布時(shí)間:2024/9/15 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬一爬那些年你硬盘存过的老师 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

點(diǎn)擊“小詹學(xué)Python”,選擇“置頂”公眾號(hào)

重磅干貨,第一時(shí)間送達(dá)

本文轉(zhuǎn)載自Python全家桶,禁二次轉(zhuǎn)載


除非你能在床上賺錢,否則就不要賴在床上!

——蒼老師(別當(dāng)真


最近在Github發(fā)現(xiàn)一個(gè)基于google瀏覽器的爬蟲項(xiàng)目,此項(xiàng)目是由美國(guó)大神2018年開(kāi)源的。這個(gè)開(kāi)源項(xiàng)目不需要使用者再去手寫核心爬蟲,只需要下載安裝,然后傳入一些配置參數(shù)即可。重要的能做到google圖片的無(wú)限量爬取,只有不想爬的圖片,沒(méi)有爬不到的。下來(lái)就介紹一下這個(gè)牛逼的開(kāi)源項(xiàng)目。


前沿:


這是一個(gè)命令行python程序,用于搜索Google Images上的關(guān)鍵字/關(guān)鍵短語(yǔ),并可選擇將圖像下載到您的計(jì)算機(jī)。還可以從另一個(gè)python文件調(diào)用此腳本。

如果只想為每個(gè)關(guān)鍵字下載最多100個(gè)圖像,則無(wú)需安裝依賴項(xiàng)。如果您想要每個(gè)關(guān)鍵字超過(guò)100個(gè)圖像,需要同時(shí)安裝Selenium庫(kù)chromedriver。故障排除部分中的詳細(xì)說(shuō)明。


Github地址https://github.com/hardikvasa/google-images-download



項(xiàng)目介紹: google-images-download


此項(xiàng)目開(kāi)源到現(xiàn)在一年的時(shí)間,就已經(jīng)收割了3900+star,真的不得不跪拜大神的能力,能將一個(gè)簡(jiǎn)單的爬蟲做到如此牛逼的地步。



當(dāng)然,這么熱門的項(xiàng)目,也不是一個(gè)人短時(shí)間完成的。Github上顯示,此項(xiàng)目的貢獻(xiàn)者就高達(dá)26人,代碼總共提交了133次。此項(xiàng)目能收到這么多star,還是在于更多的貢獻(xiàn)者和后期的不斷維護(hù)升級(jí)。


這個(gè)項(xiàng)目在github也做了具體的使用說(shuō)明和介紹,大家可以根據(jù)自身的項(xiàng)目情況進(jìn)行配置即可(為了方便閱讀,通過(guò)google翻譯為中文)。



關(guān)于此項(xiàng)目使用這里多逼逼幾點(diǎn):


  • 版本要求

    該項(xiàng)目作者GitHub上說(shuō)python2x與Python3x都可以,推薦Python3。


  • 項(xiàng)目使用:有2種使用方式

???????方式一:使用pip安裝報(bào)的方式(推薦)

pip?install??google_images_download

? ?

????????方式二手動(dòng)下載

git clone https://github.com/hardikvasa/google-images-download.git
cd google-images-download && sudo python setup.py install


  • 圖片數(shù)量:

    google搜索關(guān)鍵字首頁(yè)默認(rèn)100張圖片,要抓取更多的圖片,就得增加翻頁(yè)功能。此項(xiàng)目已經(jīng)實(shí)現(xiàn)了翻頁(yè)功能,只需要使用者同時(shí)安裝Selenium庫(kù)chromedriver,代碼里面配置即可。

  • 參數(shù)方式:

    原作者對(duì)參數(shù)的傳遞形式和每一個(gè)參數(shù)都做了詳細(xì)的說(shuō)明,大家可以github詳細(xì)了解。


使用案例


這里給大家分享一下如何將此項(xiàng)目用來(lái)爬取去自己需要的圖片。原作者介紹了幾種關(guān)鍵字輸入的方式。這里以文件讀取的形式將關(guān)鍵字傳入。這里爬取圖片的數(shù)量選為500張,需要下載、安裝Selenium庫(kù)chromedriver。


1、搭建爬蟲環(huán)境

pip install selenuium
pip install requests
pip install google_images_download


2、下載chromedriver驅(qū)動(dòng)

因?yàn)橄螺d的圖片數(shù)量大于100,所以還需要在安裝chromedriver,在代碼配置chromedriver位置即可。


首先要查看自己電腦上安裝的google瀏覽器版本號(hào)


▲谷歌瀏覽器版本號(hào)▲


github給的下載路徑國(guó)內(nèi)是無(wú)法下載的,不過(guò)小編已經(jīng)將大多數(shù)驅(qū)動(dòng)下載下來(lái),需要的可以后臺(tái)私信獲取。當(dāng)然也可以通過(guò)別的渠道獲取。


▲github給的下載地址▲


在chrome官網(wǎng)找到與本機(jī)的google瀏覽器版本號(hào)一致的chromedriver


▲chrome官網(wǎng)對(duì)應(yīng)的驅(qū)動(dòng)版本號(hào)▲


下載完后,安裝的路徑根據(jù)操作系統(tǒng)自己指定。我使用的時(shí)win系統(tǒng),安裝在了D盤,具體路徑如下:

"D:\download\chromedriver.exe"


3、編輯爬取的關(guān)鍵字文件:

如圖所示,只需要在keywords.csv文件里面按圖所示填寫對(duì)應(yīng)老師的名稱即可。



4、代碼展示:


import csv
import os
import sys

from google_images_download import google_images_download

# 實(shí)例化一個(gè)下載器
downloader = google_images_download.googleimagesdownload()

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
sys.path.insert(0, BASE_DIR)

# 讀取關(guān)鍵字文件
csv_file = csv.reader(open(BASE_DIR + "\google_images\keywords.csv", "r"))

def download_images(csv_file):
? ?"""
? ?傳入關(guān)鍵字等參數(shù),下載對(duì)應(yīng)的圖片文件
? ?files: 讀取的關(guān)鍵字文件
? ?limit: 爬取的圖片數(shù)量
? ?print_urls: 是否顯示爬取的圖片url
? ?chromedriver: chromedriver安裝的路徑。不填此參數(shù),默認(rèn)爬取前100張圖片
? ?output_directory:自定義保存圖片的位置
? ?"""

? ?for key_word in csv_file:
? ? ? ?arguments = {"keywords": key_word, "limit": 500, "print_urls": True,
? ? ? ? ? ? ? ? ? ? "chromedriver": "D:\download\chromedriver.exe",
? ? ? ? ? ? ? ? ? ? "output_directory": BASE_DIR + "\\files\\"}

? ? ? ?downloader.download(arguments)

if __name__ == '__main__':
? ?download_images(csv_file)


運(yùn)行:python google_download.py,你就會(huì)發(fā)現(xiàn)有源源不斷的老師圖片進(jìn)入你的硬盤,接下來(lái)就是坐等爬完所有你要的圖片了。


此文章主要還是給大家分享這個(gè)開(kāi)源項(xiàng)目,至于使用,本文只是做了一個(gè)簡(jiǎn)單的使用,想要了解更多的,可以直接在github查看。在實(shí)際中,我們可以利用這個(gè)python腳本去爬取基于google的任何圖片了。


今日互動(dòng):第一期打卡即將結(jié)束,很多小伙伴兌獎(jiǎng)了,沒(méi)兌獎(jiǎng)的你想兌換哪一本書呢


?長(zhǎng)按二維碼可以關(guān)注噢

總結(jié)

以上是生活随笔為你收集整理的爬一爬那些年你硬盘存过的老师的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。