我们身边的网络流量
作者:qinglianghu
一.網(wǎng)絡(luò)流量中的善與惡
和我們一起在網(wǎng)上沖浪的不僅有你身邊的親朋好友,還有棲息在互聯(lián)網(wǎng)上密密麻麻的網(wǎng)絡(luò)爬蟲。差不多每5次的網(wǎng)絡(luò)瀏覽里,有2次是"虛假"的網(wǎng)絡(luò)爬蟲產(chǎn)生的。這些棲息在互聯(lián)網(wǎng)上的爬蟲也是有"善惡"之分的。對于那些遵守網(wǎng)絡(luò)規(guī)定,例如我們熟知的搜索引擎"飼養(yǎng)"的爬蟲們就是大家喜愛的。但是那些違反網(wǎng)絡(luò)規(guī)定,通過找漏洞、鉆空子賺取暴利,獲取大量隱私數(shù)的就是不受我們歡迎的。
圖1.1 2019年善惡機(jī)器和人產(chǎn)生流量的占比
在Imperva的《2020 Bad Bot Report 》中,我們可以看到2019年,善意的機(jī)器流量下降到了13.1%,惡意的爬蟲流量相比去年(18.1%)上升到了24.1%,幾乎占據(jù)了全網(wǎng)流量的四分之一。
二.惡意網(wǎng)絡(luò)流量現(xiàn)狀
1.惡意流量等級分布
惡意流量的類型可以根據(jù)爬蟲程序的復(fù)雜程度來進(jìn)行劃分,Imperva 的報(bào)告中將其分成了3類。
- Simple:這種一般是簡單的容易發(fā)現(xiàn)的惡意請求,大概占總惡意請求的五分之一;
- Moderate:這種會(huì)更換不同的網(wǎng)絡(luò)環(huán)境,通過匿名代理的方式發(fā)出惡意請求;占總惡意請求的一半江山。
- Sophisticated:這種在使用匿名代理的基礎(chǔ)上會(huì)通過偽造鼠標(biāo)軌跡、點(diǎn)擊等用戶交互行為來躲避檢測,幾乎能完全模擬人類的瀏覽行為。中高類型的爬蟲通常還被稱作APBs(Advanced persistent bots),占了7成的惡意流量。
圖 2.1 惡意流量等級分布
連續(xù)三年,按照復(fù)雜程度的惡意流量分布非常一致,最容易檢測到的簡單惡意請求占比為26.3%;中等占比53.6%;復(fù)雜專業(yè)的惡意請求占比20.1%。APBs占比73.7%,略高于上一年。秒撥IP技術(shù)的發(fā)展,使得很多簡單的通過IP黑名單方式限制爬蟲的方式無效。
2.不同行業(yè)惡意流量分布
惡意流量問題遍布每個(gè)行業(yè),有一些問題是某些行業(yè)獨(dú)有的。比如只有登錄入口的網(wǎng)站可能遭遇的撞庫攻擊,而價(jià)格爬取則主要集中在電商行業(yè)。
圖2.2 不同行業(yè)流量分布占比
金融服務(wù)行業(yè) 連續(xù)第二年以47.7%的惡意流量占比占據(jù)所有行業(yè)受惡意流量攻擊的頭名。大部分惡意流量來自撞庫攻擊,它們的目的是獲取這些公司的用戶隱私信息。
教育行業(yè) 惡意流量占45.7%,爬蟲程序一般用于獲取論文、學(xué)生選課以及獲取賬號(hào)。
市場交易相關(guān)行業(yè) 這是另外一個(gè)受到大量惡意流量攻擊的行業(yè),和電子商務(wù)類似這部分的爬蟲主要用于價(jià)格信息和用戶賬號(hào)的獲取。
政府 流向政府網(wǎng)站的流量中有37.5%的惡意流量,這部分爬蟲基本上爬取的是商業(yè)注冊信息和選舉信息。
非營利性組織 使用非盈利性組織的捐贈(zèng)頁面來驗(yàn)證非法手段得到的金融賬號(hào)信息的有效性,這部分流量的攻擊對于非盈利組織的服務(wù)器來說是難以處理的。
航空旅游業(yè) 航空旅游業(yè)30.5%的惡意流量組成比較復(fù)雜,這其中不僅有來自競爭對手的直接爬取,還有一部分來自第三方生態(tài)公司。未經(jīng)授權(quán)的代理商、競爭對手以及二手黃牛黨使用高級爬蟲爬取票價(jià),這不僅增加了普通用戶的交易成本,造成了很多客戶的投訴,而且爬蟲程序還會(huì)帶來服務(wù)器響應(yīng)速度變慢甚至癱瘓的問題。此外,旅行公司的用戶賬號(hào)也面臨被撞庫攻擊的問題,黑灰產(chǎn)會(huì)試圖盜取用戶賬戶中的里程積分來牟取暴利。
3.惡意流量來源
七成的惡意流量的來自大型數(shù)據(jù)中心(云服務(wù)提供商),相較于去年略有下降。惡意流量中來自家用網(wǎng)絡(luò)的比例連續(xù)三年增長,又之前的22.7%上漲到了27.8%,來自移動(dòng)網(wǎng)絡(luò)的惡意流量占比不高僅占2.3%。
圖2.3 2019年惡意流量來源分布情況
從國家角度來看,美國已經(jīng)連續(xù)六年占據(jù)榜首,不過相較于去年的53.4%已經(jīng)下降到了45.9%。中國以4.8%占據(jù)第四。
圖2.4 2019年惡意流量來源國家分布情況
在抵御惡意流量最多的國家分布中,俄羅斯以21.1%的占比排名第一,中國排名第二。這主要得益于這些國家針對外國網(wǎng)絡(luò)的封禁。
圖2.5 2019年不同多家對惡意流量阻擋情況
三.原因分析與應(yīng)對方法
2019年網(wǎng)絡(luò)中惡意的機(jī)器流量已經(jīng)達(dá)到全網(wǎng)流量的四分之一。不僅如此,惡意機(jī)器流量的發(fā)展已經(jīng)進(jìn)入了下一個(gè)階段,它們正試圖改善自己的形象,使得自己看起來合法。黑灰產(chǎn)運(yùn)營商正在建立專業(yè)的業(yè)務(wù),他們從其他網(wǎng)站上"獲取"數(shù)據(jù)、打包數(shù)據(jù),并向愿意購買的公司提供數(shù)據(jù)。所有這些都被巧妙的包裝成了“智能商業(yè)”的服務(wù)。
惡意網(wǎng)絡(luò)流量快速發(fā)展的原因,大概可以歸結(jié)為如下幾點(diǎn):
1.市場導(dǎo)向
首先,黑灰產(chǎn)有較大的利益可圖。目前它們已經(jīng)擁有了專業(yè)外觀的網(wǎng)站,提供被稱為定價(jià)情報(bào)、金融替代數(shù)據(jù)或競爭洞察的商業(yè)情報(bào)服務(wù)。通常,這些企業(yè)提供專注于特定行業(yè)的數(shù)據(jù)產(chǎn)品。隨著市面上可以購買爬蟲爬取的數(shù)據(jù)越來越多,行業(yè)內(nèi)企業(yè)間的競爭壓力越來越大。沒有企業(yè)希望自己,因?yàn)樾畔@取不全而失敗。
圖3.1 某平臺(tái)的各種數(shù)據(jù)榜單
同時(shí),隨著會(huì)員制度不斷的完善和普及,每個(gè)用戶的賬戶內(nèi)都有一些可以兌換或者轉(zhuǎn)移的數(shù)字貨幣或者積分、禮物。來自數(shù)據(jù)泄露的賬戶密碼與會(huì)員制度的增長相結(jié)合,為惡意撞庫提供了便利。惡意機(jī)器程序未經(jīng)許可從網(wǎng)站上爬取數(shù)據(jù)(例如定價(jià)、庫存等)以獲得競爭優(yōu)勢。爬取的個(gè)人隱私數(shù)據(jù)甚至?xí)徊环ǚ肿永?#xff0c;從事欺詐、盜竊等違法犯罪活動(dòng)。
其次,在不同領(lǐng)域?qū)τ诹髁康男枨笠踩找嬖龃蟆T谥袊?#xff0c;粉絲為自己喜歡的明星購買流量打榜已經(jīng)是大家公認(rèn)的手段。在美國,機(jī)器操控的社交媒體賬號(hào)設(shè)置能干預(yù)選舉的投票。
最后,現(xiàn)在招聘的崗位中出現(xiàn)了很多針對數(shù)據(jù)爬取相關(guān)的崗位,且有著很高的待遇。在這種大環(huán)境下,很難看到惡意機(jī)器流量問題的消失。
2.灰色地帶的網(wǎng)絡(luò)爬蟲
惡意機(jī)器流量大部分來自網(wǎng)絡(luò)爬蟲,爬蟲作為一種計(jì)算機(jī)技術(shù)就決定了它的中立性,因此爬蟲本身在法律上并不被禁止,但是利用爬蟲技術(shù)獲取數(shù)據(jù)這一行為是具有違法甚至是犯罪的風(fēng)險(xiǎn)的。
在2019年11月的hiQ使用爬蟲爬取Linkedin上數(shù)據(jù)的案件中。法院最終裁定的結(jié)果是:被告領(lǐng)英(LinkedIn)公司不得阻止hiQ公司進(jìn)入、復(fù)制并使用LinkedIn網(wǎng)站的公開信息,亦不得采取法律或技術(shù)措施進(jìn)行阻礙,若有則必須在24小時(shí)內(nèi)稱除。
下面幾種手段或許能在一定程度上緩解惡意爬蟲帶來的負(fù)面影響。
禁止一些過時(shí)的User Agent請求頭,一般來說爬蟲程序的請求是隨機(jī)生成,且有很多是早些年編寫的代碼,這部分請求的UA已經(jīng)過時(shí)了。
禁止一些代理服務(wù)的提供商,很多爬蟲使用的是市面上一些免費(fèi)活著廉價(jià)的第三方的代理服務(wù)。禁止這些代理的請求或許是不錯(cuò)的選擇。
管理好自己網(wǎng)站的所有訪問源。包括網(wǎng)站的移動(dòng)web版、H5小程序版本,還有分享到第三方平臺(tái)的鏈接。
分析網(wǎng)站的請求日志
記錄分析網(wǎng)站登陸失敗的日志。
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
- 上一篇: 蚂蚁架构师郭援非:分布式数据库是金融机构
- 下一篇: 定义下一代存储,打造全新一代数据基础设施