爬虫写得好,牢饭吃得早
爬蟲在互聯(lián)網(wǎng)時代并不稀奇,面對海量數(shù)據(jù),人工獲取信息的效率低、時效性差,為了提升體驗很多公司都會開發(fā)爬蟲系統(tǒng)。但是,爬蟲寫得好,牢飯吃得早。
來自 2018 年的公開案例:
某公司 2017 年轉(zhuǎn)型做互聯(lián)網(wǎng)科技公司,主營業(yè)務(wù)是“助貸”,需要經(jīng)常訪問政府居住證網(wǎng)站,查詢房產(chǎn)地址、房屋編碼和學區(qū)房的使用情況。公司產(chǎn)品組經(jīng)討論后建議用爬蟲自動查詢相關(guān)數(shù)據(jù)。
2017年12月,CTO 安排新入職的程序員負責這個項目,要求他研發(fā)一個自動定時抓取的爬蟲。
2018年1月,項目經(jīng)理給程序員一個抓取數(shù)據(jù)的程序源代碼,程序員開始修改。
2018年3月,爬蟲上線,可以從公安局居住證系統(tǒng)查詢到房產(chǎn)地址、房屋編碼等對應(yīng)的資料。
2018年4月27日10:43-12:00左右,居住證系統(tǒng)出現(xiàn)宕機現(xiàn)象,未定位到請求IP來源,懷疑是人為攻擊。
2018年5月2日10:00-12:00左右,系統(tǒng)再次遭遇攻擊,這次管理人員成功截取了IP地址并報案。
2018年5月17日晚上11點,CTO、程序員得知網(wǎng)警鎖定服務(wù)器 IP,程序員懷疑是居住證系統(tǒng)加了驗證碼但爬蟲未更新,導(dǎo)致爬蟲被判斷為攻擊行為。
2018年8月,CTO、程序員被捕,后續(xù) CTO 被判處有期徒刑三年,程序員被判處有期徒刑一年六個月。
我也曾在某金融公司開發(fā)過爬蟲,幫助用戶從銀行、基金公司、郵箱等多個渠道爬取信用卡、基金交易記錄,然后形成賬單和分析數(shù)據(jù)供用戶參考。近幾年看了不少因為開發(fā)爬蟲被判刑的案例,獨自慶幸及早抽身,已離開爬蟲團隊數(shù)年。
2019 年 9 月,江蘇淮安于某伙同王某合謀開發(fā)爬蟲網(wǎng)站,爬取個人借貸信息、身份證照片信息等達 84 萬余次,分別被判處有期徒刑四年、有期徒刑一年六個月,并處罰金。
2021 年 5 月,上海某信息科技公司員工劉某等 12 人因爬取各類網(wǎng)站、社保、公積金、手機App等網(wǎng)絡(luò)上的個人數(shù)據(jù)信息 308萬余條用于開展“征信業(yè)務(wù)”,其中 8 人被判處有期徒刑三年,緩刑三年至有期徒刑一年,緩刑一年不等,各并處罰金3萬元至1萬元不等。該團伙中的戴某等其余4人還在審理中。
2021 年 6 月,河南商丘兩人通過開發(fā)爬蟲軟件爬取淘寶客戶數(shù)字 ID、手機號等信息共計 11.8 億條用于開展淘寶推廣賺傭金,一審均被判處有期徒刑三年以上。
本文第一個案例中,CTO 辯解說爬取的是公開信息且沒有個人信息、沒有出售或交換、沒有通過數(shù)據(jù)牟利,而且爬蟲是公司管理層決定開發(fā)、由技術(shù)部程序員實施開發(fā),是公司工作任務(wù)。程序員辯解說項目經(jīng)理給的源代碼不知道是誰開發(fā)的,修改爬蟲程序是工作任務(wù)僅用于公司業(yè)務(wù),本人并未牟利,而且開發(fā)完成后就沒有繼續(xù)修改了,攻擊行為猜測是沒有處理驗證碼導(dǎo)致的。但法院最終判決為 CTO 被判處有期徒刑三年,程序員被判處有期徒刑一年六個月,其他人員無責。
并不是所有的爬蟲都違法,被爬信息完全公開,內(nèi)容中不涉及個人信息、版權(quán)內(nèi)容及數(shù)據(jù)資產(chǎn)的,爬蟲頻率適當不會影響被爬網(wǎng)站正常響應(yīng)的,一般來說,都是合法合規(guī)的爬蟲行為。同時也要注意,爬蟲合規(guī)也不代表業(yè)務(wù)合規(guī),如果業(yè)務(wù)違規(guī)一樣會追究責任。
爬蟲一般都偽造 UA,可能會成為起訴證據(jù),在今日頭條爬蟲案件當中,檢察院和法院,就以偽造UA作為定罪證據(jù)。部分情況下,爬蟲使用代理也可能會涉嫌非法繞過防護。爬到的數(shù)據(jù)也要定期清理,以免被抓時公安固定證據(jù),發(fā)現(xiàn)還有別的案件來個并案處理、數(shù)罪并罰。
比較嚴重的情況,最高法、最高檢在《關(guān)于辦理危害計算機信息系統(tǒng)安全刑事案件應(yīng)用法律若干問題的解釋》中有明確解釋,簡單來說就是:
- 未經(jīng)授權(quán)獲取對方數(shù)據(jù),可能會涉嫌“非法獲取計算機信息系統(tǒng)數(shù)據(jù)”,也規(guī)定了“后果特別嚴重”的認定;
- 造成對方系統(tǒng)不可用,可能涉嫌破壞計算機信息系統(tǒng)罪,而且可能被認定“后果特別嚴重”;
最高法、最高檢的規(guī)定看起來更像是黑客犯罪,但是,由于專業(yè)背景和立場不同,公檢法對技術(shù)的理解與程序員未必一致,仍然有部分地區(qū)法院以此作為罪名判決。爬蟲出了問題,對方網(wǎng)站肯定是受害者,總要有個被告來負責,你說會是誰呢?
如果必須要做爬蟲,記得找法務(wù)同學正規(guī)審批,做好風險隔離。要是沒有法務(wù)參與,早點 run 吧!
爬蟲寫得好,牢飯吃得早 - 程序之心
總結(jié)
以上是生活随笔為你收集整理的爬虫写得好,牢饭吃得早的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何将caj转换成word
- 下一篇: 关于九宫格的一个算法,求大神助攻