日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫非专业八级模拟考试

發布時間:2024/9/15 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫非专业八级模拟考试 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

點擊“小詹學Python”,選擇“置頂”公眾號

重磅干貨,第一時間送達

本文轉載自麻瓜編程


爬蟲非專業八級考試,

我就不信有滿分飄過的學霸!


請聽題:


點擊下方空白區域查看答案

正確答案 B


最大的爬蟲就是搜索引擎。Google作為世界上最大的搜索引擎,其爬蟲流量也遙遙領先于其他各類搜索引擎爬蟲,占所有爬蟲流量的3.87%


點擊下方空白區域查看答案

正確答案 C


企業工商注冊信息不是個人數據,數據來源都是國家公示網站,所公示內容是依法公開的內容。

對于敏感的個人信息,比如爬取社保、身份證號、淘寶交易記錄,是違法的。






點擊下方空白區域查看答案

正確答案 A


數據來自淺黑科技:關于爬蟲,這里有一份《中國焦慮圖鑒》


點擊下方空白區域查看答案

正確答案 C


使用打碼平臺是最快解決問題的方法


點擊下方空白區域查看答案

正確答案 B


經過分析,發現迷之字符規律的出現在?span?標簽內,所以就把?span?標簽的內容干掉好了。


點擊下方空白區域查看答案

正確答案 C


美團這里用到的是?background?拼湊。數字其實是圖片,根據不同的background偏移,顯示出不同的字符。

既然人眼可以看出數字是多少,那么程序也可以識別。可以用?tesseract-ocr?進行圖片識別。


點擊下方空白區域查看答案

正確答案 B


這里去哪兒的策略是先用四個i標簽渲染,再用兩個b標簽去絕對定位偏移量,覆蓋故意展示錯誤的i標簽,最后在視覺上形成正確的價格。

找到規律,根據元素偏移量去計算正確的數字和位數,替換掉錯誤的價格即可。



點擊下方空白區域查看答案

正確答案 AC


使用?Selenium?+?chromedriver?或者抓?API?接口都可以,這里不推薦?PhantomJS?是因為框架不再維護了。但可能一些老的教程還在用。


點擊下方空白區域查看答案

正確答案 AB


抓包?mitmproxy?或者?APK?反編譯都可以。Requests?肯定是請求不到的了。



10.?簡答題:這張圖還可以再往下補充的進攻和防守輪回是什么?


點擊下方空白區域查看答案

參考答案


其實可以補充的有很多了,真實世界比這張圖復雜很多,在這里提供兩個思路:

一輪:

反爬的防守:識別出來selenium爬蟲,進行數據投毒,給假數據。

爬取的進攻:Android模擬器,模擬正常用戶,或者再換一個http?client


又一輪:

爬取的進攻:模擬正常用戶行為,點擊其他功能或者頁面

反爬的防守:爬取的限速限流

考試結束~
大家們考的怎么樣?每道題10分,滿分100分,你能得多少分呢?

推薦閱讀

不會代碼,如何用wordpress搭建一個個人博客?


總結

以上是生活随笔為你收集整理的爬虫非专业八级模拟考试的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。