java爬虫框架动态_java爬虫框架webmagic
最近需要爬去網站的一些商品,就開始在網上找方法,本來是想著用Python做的,因為以前用Python寫過一個小腳本,爬取一個文獻網站上的免費文獻.
步驟大概是這樣的:1,先獲取給定URL的html文件,然后在這個文件中用正則表達式匹配出需要的URL(可能含有分頁的URL),然后再獲取匹配出的URL的html,在這些html文件中會有可以下載的PDF文件的鏈接,然后把這些鏈接存到磁盤中.(這中間因為網站有防爬蟲,所以中間花了點時間在模擬瀏覽器上).拿到鏈接之后,就是下載文獻了,寫了一個shell腳本,每次讀一個鏈接下載,然后保存到指定的文件夾中.
這次的需求跟以前的需求有所不同,需要抓取目標網站的一些商品的信息,比上次有點復雜.花了一兩天時間在網上找了好幾個框架,最后決定使用webmagic基于Java的框架.
選擇這個框架也是因為這個框架很方便,很容易進行二次開發,而且也集成了一些其它的工具,比如提取指定html標簽的元素等.
webmagic四個主要的組件:1,downloader;2,PageProcessor;3,Scheduler;4,Pipeline.
Downloader負責從網上下載頁面,PageProcessor負責解析頁面,提取有用的信息,發現鏈接,Scheduler管理未抓取的URL以及去重,Pipeline就是存儲和顯示數據了,可以打印到控制臺,輸出到本地文件或者寫入數據庫.
這些組件webmagic都已經實現了,使用者只需要設計自己提取內容的規則就可以了.
附上鏈接https://github.com/code4craft/webmagic
總結
以上是生活随笔為你收集整理的java爬虫框架动态_java爬虫框架webmagic的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java push_back,将一个结构
- 下一篇: java控制一次传10条数据_java