crawler_爬虫开发的曲线图
生活随笔
收集整理的這篇文章主要介紹了
crawler_爬虫开发的曲线图
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
個人總結爬蟲的學習曲線,可分為三個階段,?
一、?
? ? 主要在填充基礎知識,要熟悉http協議,學習正則表達式,首先基于jdk的基礎包的網絡功能,.net包下的 ?httpurlconnction?
從細節上簡單訪問網絡數據,進一步可以減去一些繁瑣的封裝功能(請求參數),使用httpClient (4.2.1)版本,處理的登錄
頁面解析可以借助regex ,jsoup ,htmlparser ,建議使用正則(要求較高),數據的鎖向性準確,性能高。
二、
? ? 融入架構的思想,考慮爬取性能,爬取道德,站點處理能力,設計實現分布式爬蟲,異步下載,負載均衡。
個人正在處在第二階段
三 、
? ? 經過階段二,一般商用爬蟲都能應對,若打算進一步提高,java的垃圾回收,內存釋放,注定性能比不上c,
可根據個人興趣,用c重寫。
不盡之處,歡迎溝通與交流 ,共同進步。
爬蟲技術交流_crawler ?QQ群 :167047843
轉載于:https://www.cnblogs.com/cphmvp/p/3304535.html
總結
以上是生活随笔為你收集整理的crawler_爬虫开发的曲线图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《数字图像处理》冈萨雷斯学习笔记3:频域
- 下一篇: terminal 常用 快捷键