爬虫普及,Web安全更需注意
互聯(lián)網(wǎng)技術(shù)上不斷發(fā)展,Python的普及以及代理ip的進(jìn)一步穩(wěn)定,爬蟲技術(shù)也得到了前所未有的優(yōu)化。過去我們或許還會(huì)為抓取海量數(shù)據(jù)而頭痛。但現(xiàn)在,不斷優(yōu)化的網(wǎng)絡(luò)爬蟲技術(shù),卻能夠輕松應(yīng)對(duì)這個(gè)問題,為高效搜索用戶關(guān)注的特定領(lǐng)域與主題提供了有力支撐。而網(wǎng)絡(luò)爬蟲現(xiàn)在也逐漸發(fā)展成為涵蓋數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法綜合應(yīng)用的智能工具。
凡事都有兩面性,網(wǎng)絡(luò)爬蟲帶太陽HTTP來便利的同時(shí),也網(wǎng)站的安全問題帶來了不小的隱患,惡意用戶可以利用爬蟲程序?qū)eb站點(diǎn)發(fā)動(dòng)DoS***,使Web服務(wù)在大量爬蟲程序的暴力訪問下,資源耗盡而不能提供正常服務(wù)。惡意用戶還可能通過網(wǎng)絡(luò)爬蟲抓取各種敏感資料用于不正當(dāng)用途,主要表現(xiàn)在以下幾個(gè)方面:
1)搜索測(cè)試頁(yè)面、手冊(cè)文檔、樣本程序及可能存在的缺陷程序
大多數(shù)Web服務(wù)器軟件附帶了測(cè)試頁(yè)面、幫助文檔、樣本程序及調(diào)試用后門程序等。這些文件往往會(huì)泄漏大量的系統(tǒng)信息甚至提供繞過認(rèn)證直接訪問Web服務(wù)數(shù)據(jù)的方法,成為惡意用戶分析***Web服務(wù)器的有效情報(bào)來源。而且這些文件的存在本身也暗示網(wǎng)站中存在潛在的安全漏洞。
2)搜索互聯(lián)網(wǎng)用戶的個(gè)人資料
互聯(lián)網(wǎng)用戶的個(gè)人資料包括姓名、×××號(hào)、電話、Email地址、QQ號(hào)、通信地址等個(gè)人信息,惡意用戶獲取后容易利用社會(huì)工程學(xué)實(shí)施***或詐騙。
3)搜索管理員登錄頁(yè)面
許多網(wǎng)絡(luò)產(chǎn)品提供了基于Web的管理接口,允許管理員在互聯(lián)網(wǎng)中對(duì)其進(jìn)行遠(yuǎn)程管理與控制。如果管理員疏于防范,沒有修改網(wǎng)絡(luò)產(chǎn)品默認(rèn)的管理員名及密碼,一旦其管理員登錄頁(yè)面被惡意用戶搜索到,網(wǎng)絡(luò)安全將面臨極大的威脅。
4)搜索目錄列表
互聯(lián)網(wǎng)中的許多Web服務(wù)器在客戶端請(qǐng)求該站點(diǎn)中某個(gè)沒有默認(rèn)頁(yè)面的目錄時(shí),會(huì)返回一個(gè)目錄列表。該目錄列表通常包括可供用戶點(diǎn)擊的目錄和文件鏈接,通過這些鏈接可以訪問下一層目錄及當(dāng)前目錄中的文件。因而通過抓取目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點(diǎn)的目錄結(jié)構(gòu)、敏感文件以及 Web服務(wù)器設(shè)計(jì)架構(gòu)及配置信息等等,比如程序使用的配置文件、日志文件、密碼文件、數(shù)據(jù)庫(kù)文件等,都有可能被網(wǎng)絡(luò)爬蟲抓取。這些信息可以作為挑選***目標(biāo)或者直接***站點(diǎn)的重要資料。
如何應(yīng)對(duì)爬蟲的安全威脅
由于網(wǎng)絡(luò)爬蟲帶來的安全威脅,不少網(wǎng)站的管理人員都在考慮對(duì)爬蟲訪問進(jìn)行限制甚至拒絕爬蟲訪問。
限制爬蟲可以通過以下幾種方法實(shí)現(xiàn):
1) 設(shè)置robots.txt文件
限制爬蟲最簡(jiǎn)單的方法是設(shè)置robots.txt文件。robots.txt文件是搜索引擎爬蟲訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件,它告訴爬蟲程序在服務(wù)器上什么文件是可以被查看的,如設(shè)置Disallow: /,則表示所有的路徑均不能查看。遺憾的是并不是所有的搜索引擎爬蟲會(huì)遵守這個(gè)規(guī)則,因此僅僅設(shè)置robots文件是不夠的。
2) User Agent識(shí)別與限制
一般的爬蟲程序都可以通過其HTTP請(qǐng)求中的User Agent字段進(jìn)行識(shí)別,該字段使服務(wù)器能夠識(shí)別客戶使用的操作系統(tǒng)及版本、CPU類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。
3) 通過訪問行為特征識(shí)別與限制
對(duì)于在HTTP請(qǐng)求的User Agent字段刻意偽裝成瀏覽器的爬蟲,可以通過其訪問行為特征進(jìn)行識(shí)別。爬蟲程序的訪問一般是有規(guī)律性的頻率比較高,區(qū)別于真實(shí)用戶瀏覽時(shí)的隨意性與低 頻率。對(duì)這類爬蟲的限制原理與DDoS***的防御原理很相似,都基于統(tǒng)計(jì)數(shù)據(jù)。對(duì)于這類爬蟲的限制只能通過應(yīng)用識(shí)別設(shè)備、IPS等能夠做深度識(shí)別的網(wǎng)絡(luò)設(shè) 備來實(shí)現(xiàn)。
無論是爬蟲還是反爬蟲,都少不了代理ip的支持,在互聯(lián)網(wǎng)的無聲世界里,爬蟲之間的戰(zhàn)爭(zhēng)從未停止過,勝利的關(guān)鍵就在于能否真正阻攔或者突破對(duì)方的侵入或者限制。這里還是呼吁,合理使用爬蟲技術(shù),不要做違法的事情。love&paece
轉(zhuǎn)載于:https://blog.51cto.com/14059916/2317361
總結(jié)
以上是生活随笔為你收集整理的爬虫普及,Web安全更需注意的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么用最短时间高效而踏实地学习Pytho
- 下一篇: 2018年下半年软件设计师考试上午真题(