Java的Jsoup爬虫
生活随笔
收集整理的這篇文章主要介紹了
Java的Jsoup爬虫
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Java的Jsoup爬蟲,爬攜程酒店評分,保存數據庫中
- 前言
- 一、Jsoup爬蟲pom
- 二、邏輯代碼部分
- 1.首先我們要先確定爬取的東西,這邊我就以攜程的酒店評分為例子。
- 2.Jsoup進行解析具體要求爬的內容
- 3.接下來我們就是將爬取的數據存入數據庫中
- 總結
前言
很多人都知道爬蟲,然后這里就簡單的介紹一下java爬蟲的使用。
好啦,話不多說進入正題!
一、Jsoup爬蟲pom
java使用爬蟲就要用到爬蟲的pom文件
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>想要使用Jsoup進行爬蟲就要使用到上面的pom文件。
二、邏輯代碼部分
1.首先我們要先確定爬取的東西,這邊我就以攜程的酒店評分為例子。
首先先要用代碼去獲得這個頁面的路徑
這時候就模擬瀏覽器訪問到了這個頁面
2.Jsoup進行解析具體要求爬的內容
我們這邊是要獲取酒店的評分
首先進入頁面f12,然后用鼠標抓取評分,就會有score出來,這就是我們需要爬取的東西,接下來就是用代碼的形式進行爬取。
這樣我們就成功的將酒店的評分爬取到了。
3.接下來我們就是將爬取的數據存入數據庫中
為了方便觀看,這里也將酒店的名稱也爬取出來
Elements nameItems = postList.getElementsByClass("list-card-title");for (Element nameItem : nameItems) {Elements titleEle01 = nameItem.select(".list-card-title span[class='name font-bold']");System.err.println("酒店名稱:"+titleEle01.text());}想要將數據存入數據庫,我們首先需要編寫一個pojo對象
為了更加方便直觀的觀看數據,我這里給數據加了id以及time
接著就是mapper
@Mapper public interface LotteryMapper extends BaseMapper<Lottery> { }然后使用通用mapper就可以直接存入數據庫
Document document = Jsoup.parse(html); // //像js一樣,通過標簽獲取title // System.out.println(document.getElementsByTag("title").first());//像js一樣,通過id 獲取文章列表元素對象Element postList = document.getElementById("ibu_hotel_container");//像js一樣,通過class 獲取列表下的所有博客Elements postItems = postList.getElementsByClass("score");//循環處理每篇博客System.err.println("----------------" + postItems);Elements titleEle = postItems.select(".score span[class='real font-bold']");System.err.println("評分:" + titleEle.text());Lottery lottery = new Lottery();lottery.setScore(titleEle.text());Elements nameItems = postList.getElementsByClass("list-card-title");for (Element nameItem : nameItems) {Elements titleEle01 = nameItem.select(".list-card-title span[class='name font-bold']");System.err.println("酒店名稱:" + titleEle01.text()); // Lottery lottery = new Lottery();lottery.setName(titleEle01.text());list.add(lottery);System.out.println("---------------------");}lotteryMapper.insert(lottery);接下來看一下數據庫中是否有數據
我們這里看一看到有成功爬取的數據。
總結
關于java爬蟲的東西就到這里了,有不足之處還望指出來。
總結
以上是生活随笔為你收集整理的Java的Jsoup爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python之路【第十七篇】:装饰器
- 下一篇: JavaEE 银联支付之网站支付-消费类