日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

一入爬虫深似海,反爬技术你知多少?

發(fā)布時(shí)間:2024/5/7 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一入爬虫深似海,反爬技术你知多少? 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 1. 習(xí)慣性嘮叨點(diǎn)啥
  • 2. 什么造就了爬蟲
  • 3. 為什么要反爬蟲
  • 4. 反反爬蟲的權(quán)重
  • 5. 高級(jí)的反爬手段
  • 6. 爬蟲的發(fā)展方向
  • 7. 致謝

1. 習(xí)慣性嘮叨點(diǎn)啥

??最近很久一段時(shí)間沒(méi)有更新文章了,堅(jiān)持這個(gè)詞確實(shí)很重要,就跟我們學(xué)習(xí)一樣。但是對(duì)于很多身在職場(chǎng)又或在學(xué)校的朋友們來(lái)講的話,工作、學(xué)業(yè)繁忙確實(shí)少有精力跟時(shí)間能靜下來(lái)寫寫文章。有很多人覺(jué)得寫文章其實(shí)就是給自己看而已。其實(shí)不管是給自己或者是他人,用心創(chuàng)作最重要!為什么這么說(shuō)呢?用心的過(guò)程中你會(huì)發(fā)現(xiàn)你對(duì)知識(shí)的歸納、經(jīng)驗(yàn)的總結(jié)、技術(shù)的運(yùn)用能力都在不斷的提升。我相信每一位作者的初心都是通過(guò)寫文章的方式去鞏固自身的知識(shí)點(diǎn)、記錄自己的學(xué)習(xí)過(guò)程、分享自己的學(xué)習(xí)方法與經(jīng)驗(yàn)。

??夜深的時(shí)候躺在床上準(zhǔn)備入睡的時(shí)候,拿起手機(jī)刷刷博客,會(huì)發(fā)現(xiàn)很多優(yōu)秀的作者ta們的文章閱讀的時(shí)候無(wú)論從哪個(gè)方面都是很Nice的,我個(gè)人而言的話,還是比較傾向技術(shù)與生活或者技術(shù)與感悟結(jié)合在一起的文章。純技術(shù)輸出的文章講實(shí)話還是缺少些許樂(lè)趣吧,我看著的話容易犯困,雖然我們是程序員!畢竟在一個(gè)知識(shí)共享的平臺(tái),創(chuàng)作文章總不能像自己平時(shí)記Liunx命令那樣吧,HaHa

其實(shí)我跟在座的各位DaLao一樣,一個(gè)在互聯(lián)網(wǎng)公司求生的程序員!工作占據(jù)了大部分時(shí)間,爬蟲系列的文章雖未堅(jiān)持及時(shí)更新,但是!每天工作歸嘎的我仍心系遠(yuǎn)方,希望有朝一日能實(shí)現(xiàn)財(cái)富自由、也同樣希望早日榮歸故里

我想未來(lái)我的文章里并不只限于爬蟲技術(shù)文章更有Python領(lǐng)域的其他文章。當(dāng)然還有這個(gè)圈子的感悟以及經(jīng)歷!所以今天它來(lái)了,它帶著反爬、揣著夢(mèng)想向你走來(lái)了!

2. 什么造就了爬蟲

??爬蟲一直伴你我左右,只不過(guò)近兩年伴隨著Python的熱度也慢慢鋒芒畢露。在而今眼目下的大數(shù)據(jù)時(shí)代,市場(chǎng)涌現(xiàn)了大批大數(shù)據(jù)公司。前兩年前大數(shù)據(jù)火得一塌糊涂(當(dāng)然現(xiàn)在也很火)各行各業(yè)都在宣稱大數(shù)據(jù)是未來(lái)的趨勢(shì),很多資本大佬涌進(jìn)這波浪潮中占領(lǐng)自己的一席之地。所以呢!為什么很多中小微企業(yè)招爬蟲職位的需求會(huì)比較多?而且你會(huì)發(fā)現(xiàn)薪資待遇很是誘人。數(shù)據(jù)是一家企業(yè)壯大的資本,但是!作為一家大數(shù)據(jù)公司,數(shù)據(jù)在哪呢?

大佬:我們雖然沒(méi)有數(shù)據(jù)但是我們有爬蟲工程師呀!
What?是的,你沒(méi)有聽(tīng)錯(cuò)。ta說(shuō)ta們有爬蟲團(tuán)隊(duì),你的站慌了嗎?另外偷偷告訴你們,有些大數(shù)據(jù)企業(yè)它擁有的數(shù)據(jù)量可能都沒(méi)有你大學(xué)四年收藏在U盤的資源多
??作為一個(gè)大數(shù)據(jù)公司,這么點(diǎn)數(shù)據(jù)必然是不能推進(jìn)整個(gè)公司的戰(zhàn)略布局!這點(diǎn)數(shù)據(jù)量無(wú)法支持一家企業(yè)的野心,怎么去忽悠投資爸爸?這個(gè)時(shí)候公司的先鋒小隊(duì)就要頂上去了,開(kāi)始按需編寫爬蟲、拼命的采集各大站點(diǎn)的數(shù)據(jù)資源。很快這些數(shù)據(jù)不再是你大學(xué)四年所積累的那點(diǎn)資源能比擬的了。這些數(shù)據(jù)將是企業(yè)拉融資的資本、也同樣是后續(xù)戰(zhàn)略布局展開(kāi)的奠基石

3. 為什么要反爬蟲

??爬蟲作為獲取數(shù)據(jù)的重要手段,早期起源于搜索引擎。但是搜索引擎它是一只善意的爬蟲,可以檢索你的一切信息,并提供給其他用戶訪問(wèn)。它們建立了robots君子協(xié)定,帶來(lái)的結(jié)果是雙贏!

看累了吧?講個(gè)段子給你聽(tīng)聽(tīng)如何?(漏出本性的笑容)

有三家公司,它們分別是電商A、電商B、電商C。有一天這個(gè)電商A的后臺(tái)人員發(fā)現(xiàn)很多流量查詢一個(gè)商品,但是并未生成訂單信息,那不就是根本沒(méi)購(gòu)買咱們的商品呀。這是怎么回事呢?難道是價(jià)格太高了嗎?要不咱們寫個(gè)爬蟲看看同行的這個(gè)數(shù)據(jù)信息?于是電商A的爬蟲工程師分別使用爬蟲拜訪了電商B跟電商C的網(wǎng)站。過(guò)了幾天!B跟C的后臺(tái)人員分別檢測(cè)到大量異常流量來(lái)襲,技術(shù)人員都感覺(jué)不可思議,沒(méi)有生成任何訂單卻訪問(wèn)量這么高?B跟C在同一時(shí)間想到另外兩家公司
技術(shù)負(fù)責(zé)人:肯定是他們兩家寫爬蟲來(lái)搞事,召集開(kāi)發(fā)人員開(kāi)會(huì)!
技術(shù)負(fù)責(zé)人:都騎到我們頭上來(lái)拉SHI了,這是對(duì)技術(shù)人員的鄙視!
前端&后臺(tái)開(kāi)發(fā)人員:我們一定要報(bào)這個(gè)仇
第一個(gè)反爬上線…
電商A開(kāi)發(fā)人員:第一天…哎鴨~封我IP?看我破你
第二天…哎鴨~封我賬號(hào)?看我破你
第三天…哎鴨~驗(yàn)證碼、請(qǐng)求加密?

然而,做反爬的B、C公司技術(shù)人員加班天天研究如何攔截爬蟲。做爬蟲的A公司天天研究如何破解反爬蟲策略。三家公司就這么把資源全都浪費(fèi)在了這場(chǎng)較量中。最后通過(guò)某種途徑,三家公司的技術(shù)人員添加了彼此的聯(lián)系方式,通過(guò)溝通最終都心平氣和的坐在一起某個(gè)咖啡館…
爬蟲抱怨:老哥,反爬能不能別更新這么快?主要還整這么多花樣?
反爬蟲抱怨:老哥,那你就不能少抓點(diǎn)嗎?或者限制一下頻率?

??但是!很快市場(chǎng)涌現(xiàn)了大量的偽君子。現(xiàn)在很多網(wǎng)站訪問(wèn)量里面正常用戶可以說(shuō)很少。大部分來(lái)自爬蟲它們會(huì)加重網(wǎng)站服務(wù)器負(fù)擔(dān)、影響正常用戶訪問(wèn)。嚴(yán)重一點(diǎn)甚至?xí)斐蒁Dos攻擊!站在商業(yè)的角度再去思量的話,這些流失的數(shù)據(jù)很有可能會(huì)成為競(jìng)爭(zhēng)對(duì)手的戰(zhàn)略資本。
??憑以上幾點(diǎn),反爬蟲就有足夠的存在價(jià)值。網(wǎng)站爸爸自然不會(huì)讓爬蟲肆虐放縱!反爬蟲技術(shù)也奔向前線。不管是爬蟲工程師還是網(wǎng)站前后端開(kāi)發(fā)人員來(lái)說(shuō),ta們都在履行著自己的使命,雙方之間的這場(chǎng)對(duì)決哪怕只是為了證明“誰(shuí)技術(shù)更強(qiáng)”

在爬蟲與反爬蟲的江湖里,周而復(fù)始,輪回不止~

4. 反反爬蟲的權(quán)重

??反反爬蟲重要嗎?在爬蟲工程師的職業(yè)生涯里我的回答是:很重要、非常重要。可以看到現(xiàn)在市場(chǎng)對(duì)爬蟲職業(yè)的要求都會(huì)有:熟悉反爬機(jī)制、精通各種反爬…等要求。對(duì)于一名職業(yè)爬蟲開(kāi)發(fā)人員來(lái)講的話,爬蟲就是他們的飯碗,想要吃這碗飯就需要面對(duì)這些問(wèn)題并有能力處理這些問(wèn)題。

5. 高級(jí)的反爬手段

??說(shuō)到爬蟲技術(shù)的手段,很多人不僅僅是爬蟲工作者都知道常見(jiàn)的封IP。但是封IP這種手段有一個(gè)最大的缺點(diǎn)就是:誤傷。這個(gè)方法它的效果還很差,現(xiàn)在哪怕是入門級(jí)的新手寫爬蟲都知道使用IP池。這些資源并不用花費(fèi)多大的成本,就更不用說(shuō)免費(fèi)的資源了。之后的發(fā)展趨勢(shì)有了我上圖的那些反爬技術(shù)

驗(yàn)證碼反爬:這個(gè)反爬曾經(jīng)可能是可行的,隨著技術(shù)的更新?lián)Q代,帶來(lái)了機(jī)器學(xué)習(xí),還有OCR。很多圖片驗(yàn)證碼很多都能搞定!更何況在這個(gè)資本主義的時(shí)代,打碼平臺(tái)!了解一下~~

CSS加密+SVG映射反爬:前端女大佬上線!跟我比知識(shí)面?我們都知道從請(qǐng)求到數(shù)據(jù)響應(yīng)展示不僅僅是后端的事。前端要處理大量的事,比如用CSS做一些渲染。另外JS可以玩出大量招式與花樣,一周一個(gè)Feature,365天里面基本都不會(huì)帶重樣的。就問(wèn)你爬蟲老哥!你遭得住嘛?

指紋反爬:今時(shí)今日出現(xiàn)了一種新的方法替代cookie可以來(lái)跟蹤用戶。在這兩年中,許多網(wǎng)站和跟蹤軟件都開(kāi)始利用HTML5指紋。如果單單對(duì)于canvas指紋識(shí)別的話。可以利用它的原理實(shí)現(xiàn)破解,可以修改瀏覽器設(shè)置、更換瀏覽器、更換瀏覽器不同版本等系統(tǒng)環(huán)境,讓他失效。但是一般指紋識(shí)別會(huì)附加很多其他識(shí)別因素。再者!這個(gè)東西有一個(gè)缺陷就是無(wú)法驗(yàn)證它的合法性。因其沖突概率非常高!因此,看似“高級(jí)”的操作有時(shí)候也不一定能實(shí)用哦。

我之前看到一個(gè)爬dzdp的哥們?cè)谡搲窀魑慌烙寻l(fā)出求救信號(hào),大致內(nèi)容是這樣的:
??現(xiàn)在dzdp的反爬機(jī)制是字符集映射和CSS加密兩種方式,這兩種方式是輪著來(lái)的,比如同一家店的第一頁(yè)評(píng)論是用的CSS,那么第二頁(yè)或者其他頁(yè)就是映射,上午這個(gè)網(wǎng)頁(yè)可能用的CSS,下午就用的映射了,怎么破啊??同情三分鐘…

其實(shí)CSS加密+SVG映射+字體反爬網(wǎng)上的教程基本都遍地能看到,解決思路也很明了,但是隨著被各路大佬破解以后的技術(shù)共享,不得不讓dzdp等其他網(wǎng)站的開(kāi)發(fā)人員變著花樣的玩吶


但是呢?所有的反爬蟲都會(huì)有被破解的一天,只不過(guò)是時(shí)間的問(wèn)題。我這倒是有一招可破天底下各種反爬的奇招,不過(guò)又有點(diǎn)難以啟齒,是否采納各位自行斟酌!

如果你或者你的公司有礦的話,在印度、菲律賓、柬埔寨或者非洲開(kāi)一個(gè)分公司!可以雇傭廉價(jià)的勞動(dòng)力,怎么操作呢?問(wèn)得很好,就是像我們玩電腦一樣,用鼠標(biāo)點(diǎn)就行了!哪個(gè)網(wǎng)站都不好使,能拿你怎么辦?

6. 爬蟲的發(fā)展方向

??學(xué)習(xí)爬蟲的話,如果只是爬爬小網(wǎng)站,當(dāng)作學(xué)習(xí)、愛(ài)好的的話,當(dāng)然,它不難!如果是想當(dāng)飯碗,那么學(xué)習(xí)到可以吃飯的境界,還是很難的!你將要迎接的爬蟲生涯第一個(gè)難點(diǎn)就是如何對(duì)付反爬機(jī)制!后面還需要學(xué)習(xí)多進(jìn)程、多線程爬蟲、分布式爬蟲等等

任何爬蟲工程師,只搞爬蟲,只要專研得夠深,你的爬蟲:功能很強(qiáng)大、性能很高、擴(kuò)展性很好…那么還是很有前途的。

之前文章也有提到過(guò)復(fù)合型人才是市場(chǎng)最吃香的核心競(jìng)爭(zhēng)人才。爬蟲人員可以試著往大數(shù)據(jù)方向發(fā)展,爬蟲并不僅僅局限于爬取數(shù)據(jù),數(shù)分、數(shù)挖、機(jī)器學(xué)習(xí)等方面發(fā)展,前途也是不可限量的!

如果只搞爬蟲的話,技術(shù)又只停留在當(dāng)前水平的話。不再學(xué)習(xí)新知識(shí),不再進(jìn)步的話,那么是沒(méi)有前途的,總有一天會(huì)被時(shí)代淘汰。

很多時(shí)候我也充滿了這個(gè)時(shí)代的危機(jī)感!也在迷茫著未來(lái)的方向!在往后的日子里我會(huì)更好的鞭策自己,充實(shí)自己。讓我們?cè)谖磥?lái)的日子里有更多的選擇與機(jī)會(huì)!希望我們一同進(jìn)步、一同努力、擁有更好的人生、擁有更好的生活。加油!

7. 致謝

好了,到這里又要跟大家說(shuō)再見(jiàn)的時(shí)候了。我只是一個(gè)會(huì)寫爬蟲的段子手而已,希望我的文章能帶給您知識(shí),帶給您歡笑!同時(shí)也謝謝您能抽出寶貴的時(shí)間閱讀,創(chuàng)作不易,如果您喜歡的話,點(diǎn)個(gè)關(guān)注再走吧。您的支持是我創(chuàng)作的動(dòng)力,希望今后能帶給大家更多優(yōu)質(zhì)的文章

總結(jié)

以上是生活随笔為你收集整理的一入爬虫深似海,反爬技术你知多少?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 免费观看a级片 | 日本少妇做爰全过程毛片 | 亚洲色成人www永久在线观看 | 色中色av | 四虎精品 | 欧美a v在线 | 黄色a网站| 骚视频在线观看 | 国产成人一区在线观看 | 9999re| 国产一区二区三区中文字幕 | 中文字幕永久在线观看 | 国产67194| 在线干| 欧美成人国产va精品日本一级 | 中文字幕1页 | av网站在线免费播放 | 激情青青草 | 日本a区 | 综合天堂av久久久久久久 | 日本黄色录象 | 久久99久久精品 | 国产成人在线电影 | 韩国一区二区三区在线观看 | 欧美一区在线视频 | 初高中福利视频网站 | 亚洲综合站 | 日韩一区二区三区免费 | 久久国产精品-国产精品 | 成人免费国产 | 国产精品无码免费在线观看 | 可以免费看av| 黄色免费av网站 | 免费在线色 | 亚州综合 | 在线黄色网 | 精品一区二区久久 | 国家队动漫免费观看在线观看晨光 | 一个色在线视频 | 激情四月 | www.黄在线| 久久久久久片 | 中文字幕欧美另类精品亚洲 | 蜜桃视频在线播放 | 一个人免费在线观看视频 | 久久香蕉精品视频 | 日韩一区欧美二区 | 玖玖玖视频 | 嫩草午夜少妇在线影视 | 99资源 | 日b影院| 2019国产精品视频 | 亚洲欧美综合网 | 国产精品国产三级国产aⅴ浪潮 | 久久在线一区二区 | 欧美片网站免费 | 影音先锋人妻啪啪av资源网站 | 天堂网视频在线 | 成人片在线视频 | 中文字幕蜜桃 | 老司机一区| 99这里只有精品 | 国产丰满大乳奶水在线视频 | 亚洲天堂2021av | 深夜影院在线观看 | 亚洲一区二区在线电影 | 久久综合av | 免费看美女隐私网站 | 亚洲第一欧美 | 日韩一级片中文字幕 | 青青在线视频观看 | 日韩二区 | wwwxxxx国产 | 风间由美一区 | 亚洲永久网站 | 日韩综合另类 | 男女做那个视频 | 国产精品久久久久久久久岛 | 女人的黄色片 | 亚洲h动漫| 夜间福利在线观看 | 伊人久久狼人 | 自拍第一页 | 亚洲精品一区在线观看 | 午夜一区二区三区免费观看 | 中文字幕天堂av | 综合网在线 | 精品免费在线观看 | 亚洲精品久久久中文字幕 | 色播视频在线 | 亚洲激情二区 | 亚洲一区二区三区影视 | 久久99精品国产麻豆婷婷 | 国内视频一区二区三区 | 国产福利精品一区 | 先锋影音av资源站 | 一级黄色免费片 | 天天玩天天干 | 日日干夜夜草 |