日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java爬虫框架动态_java爬虫框架webmagic

發(fā)布時間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java爬虫框架动态_java爬虫框架webmagic 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

最近需要爬去網(wǎng)站的一些商品,就開始在網(wǎng)上找方法,本來是想著用Python做的,因為以前用Python寫過一個小腳本,爬取一個文獻網(wǎng)站上的免費文獻.

步驟大概是這樣的:1,先獲取給定URL的html文件,然后在這個文件中用正則表達式匹配出需要的URL(可能含有分頁的URL),然后再獲取匹配出的URL的html,在這些html文件中會有可以下載的PDF文件的鏈接,然后把這些鏈接存到磁盤中.(這中間因為網(wǎng)站有防爬蟲,所以中間花了點時間在模擬瀏覽器上).拿到鏈接之后,就是下載文獻了,寫了一個shell腳本,每次讀一個鏈接下載,然后保存到指定的文件夾中.

這次的需求跟以前的需求有所不同,需要抓取目標網(wǎng)站的一些商品的信息,比上次有點復(fù)雜.花了一兩天時間在網(wǎng)上找了好幾個框架,最后決定使用webmagic基于Java的框架.

選擇這個框架也是因為這個框架很方便,很容易進行二次開發(fā),而且也集成了一些其它的工具,比如提取指定html標簽的元素等.

webmagic四個主要的組件:1,downloader;2,PageProcessor;3,Scheduler;4,Pipeline.

Downloader負責(zé)從網(wǎng)上下載頁面,PageProcessor負責(zé)解析頁面,提取有用的信息,發(fā)現(xiàn)鏈接,Scheduler管理未抓取的URL以及去重,Pipeline就是存儲和顯示數(shù)據(jù)了,可以打印到控制臺,輸出到本地文件或者寫入數(shù)據(jù)庫.

這些組件webmagic都已經(jīng)實現(xiàn)了,使用者只需要設(shè)計自己提取內(nèi)容的規(guī)則就可以了.

附上鏈接https://github.com/code4craft/webmagic

總結(jié)

以上是生活随笔為你收集整理的java爬虫框架动态_java爬虫框架webmagic的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。