日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

手把手教你用Python爬虫煎蛋妹纸海量图片

發(fā)布時(shí)間:2025/3/21 python 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 手把手教你用Python爬虫煎蛋妹纸海量图片 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

我們的目標(biāo)是用爬蟲來干一件略污事情

最近聽說煎蛋上有好多可愛的妹子,而且爬蟲從妹子圖抓起練手最好,畢竟動(dòng)力大嘛。而且現(xiàn)在網(wǎng)絡(luò)上的妹子很黃很暴力,一下接受太多容易營養(yǎng)不量,但是本著有人身體就比較好的套路,特意分享下用點(diǎn)簡單的技術(shù)去獲取資源。

以后如果有機(jī)會(huì),再給大家說說日本愛情動(dòng)(大)作(霧)的種子搜索爬取,多多關(guān)注。

請(qǐng)先準(zhǔn)備

作案工具

我們只準(zhǔn)備最簡單的

? ? ? ? ??python 2.7.11

? ? ? ? ?Google Chrome

? ? ? ? ?安裝的時(shí)候記得把pip帶上,這樣可以方便我們安裝一些好用的包,來方便我們干壞事(學(xué)習(xí))的過程。

需要用到的包

? ? ? ? 包括更佳符合人類的HTTP庫–requests

? ? ? ? 用來解析html文件,快速提取我們需要的內(nèi)容–beautifulsoup4

也可以用下面的命令快速安裝

? ? ? ? ?pip install requests

? ? ? ? ?pip install beautifulsoup4

干正事

從一次正常需求說起

每天在互聯(lián)網(wǎng)上沖來沖去,瀏覽著大量的信息,觀看這各種鼻血噴發(fā)的圖片,于是作為新時(shí)代青年的我們,怎么能忍受被這些大量的垃圾信息充斥的互聯(lián)網(wǎng),我們要反抗,我們要下載!

請(qǐng),看,下,圖

當(dāng)你在網(wǎng)上沖浪的時(shí)候遇到這樣的圖片,我就問你:

虐不虐?虐死了!

下不下?下!

開始吧

獲取圖片的CSS選擇器的規(guī)則

首先,我們需要定位我們需要的圖片


根據(jù)我們之前的準(zhǔn)備的作案工具,使用chrome來訪問網(wǎng)頁http://jandan.net/ooxx

然后打開開發(fā)者工具菜單?->?更多工具?->?開發(fā)者工具

看下圖右邊的神器

點(diǎn)擊這個(gè)圖標(biāo)會(huì)出現(xiàn)塊選擇器,

鼠標(biāo)移動(dòng)我們感興趣的部分

按照?qǐng)D片指示點(diǎn)擊區(qū)域

右邊神器中就會(huì)出現(xiàn)我們所需要的img標(biāo)簽

查看之前最后一個(gè)以#comments開頭的標(biāo)簽,?

它包含了所有img的子標(biāo)簽。

下面讓我們來一些

神秘的事

打開cmd或者終端

輸入python

輸入以下神秘代碼

import requests from bs4 import BeautifulSoupres = requests.get('http://jandan.net/ooxx') html = BeautifulSoup(res.text) for index, each in enumerate(html.select('#comments img')):with open('{}.jpg'.format(index), 'wb') as jpg:jpg.write(requests.get(each.attrs['src'], stream=True).content)

現(xiàn)在偷偷看一下你的當(dāng)前目錄

是不是有很多(污)的圖片

咳咳是這樣的

名詞解釋

網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。

爬蟲的使用對(duì)很多工作都是很有用的,但是對(duì)一般的社區(qū),也需要付出代價(jià)。使用爬蟲的代價(jià)包括:

網(wǎng)絡(luò)資源:在很長一段時(shí)間,爬蟲使用相當(dāng)?shù)膸捀叨炔⑿械毓ぷ鳌?/p>

服務(wù)器超載:尤其是對(duì)給定服務(wù)器的訪問過高時(shí)。

質(zhì)量糟糕的爬蟲,可能導(dǎo)致服務(wù)器或者路由器癱瘓,或者會(huì)嘗試下載自己無法處理的頁面。

個(gè)人爬蟲,如果過多的人使用,可能導(dǎo)致網(wǎng)絡(luò)或者服務(wù)器阻塞。

適用場景

1?為您的應(yīng)用系統(tǒng)等檢測“機(jī)器人”數(shù)據(jù)流量
2?為您的業(yè)務(wù)系統(tǒng)提供惡意IP、手機(jī)號(hào)碼數(shù)據(jù),為惡意注冊(cè)、登錄、交易、刷單、黃牛等場景提供數(shù)據(jù)支持
3?為企業(yè)內(nèi)部風(fēng)控部門提供多緯度、分場景、更及時(shí)、全局聯(lián)防的底層數(shù)據(jù)支撐
4?對(duì)惡意爬蟲(爬取企業(yè)核心數(shù)據(jù)等)多緯度數(shù)據(jù)支撐
5?其他……

是不是還不夠

行蹤不定的下期預(yù)告

看著上面規(guī)整的排版——前后有序、圖文并茂,不就是練手爬蟲技術(shù)最好的機(jī)會(huì)嗎?今天就到這里了,讀取下一頁什么的就靠你自己探索,我將會(huì)在下個(gè)系列給你一個(gè)參考方法,希望你持續(xù)關(guān)注。?


from: http://www.freebuf.com/news/others/102315.html

總結(jié)

以上是生活随笔為你收集整理的手把手教你用Python爬虫煎蛋妹纸海量图片的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。