Jsoup介绍||jsoup解析url || Jsoup解析字符串||Jsoup解析文件
Jsoup
抓取到頁(yè)面之后,還需要對(duì)頁(yè)面進(jìn)行解析。可以使用字符串處理工具解析頁(yè)面,也可以使用正則表達(dá)式,但是這些方法都會(huì)帶來(lái)很大的開(kāi)發(fā)成本,所以我們需要使用一款專門解析html頁(yè)面的技術(shù)。
jsoup介紹
jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過(guò)DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。
jsoup的主要功能如下:
1. 從一個(gè)URL,文件或字符串中解析HTML;
2. 使用DOM或CSS選擇器來(lái)查找、取出數(shù)據(jù);
3. 可操作HTML元素、屬性、文本;
先加入Jsoup依賴:
<!--Jsoup--> <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.3</version> </dependency> <!--測(cè)試--> <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version> </dependency> <!--工具--> <dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.7</version> </dependency> <dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.6</version> </dependency>?
jsoup解析url——Jsoup可以直接輸入url,它會(huì)發(fā)起請(qǐng)求并獲取數(shù)據(jù),封裝為Document對(duì)象
PS:雖然使用Jsoup可以替代HttpClient直接發(fā)起請(qǐng)求解析數(shù)據(jù),但是往往不會(huì)這樣用,因?yàn)?strong>實(shí)際的開(kāi)發(fā)過(guò)程中,需要使用到多線程,連接池,代理等等方式,而jsoup對(duì)這些的支持并不是很好,所以我們一般把jsoup僅僅作為Html解析工具使用
Jsoup解析字符串
???????Jsoup解析文件
???????
總結(jié)
以上是生活随笔為你收集整理的Jsoup介绍||jsoup解析url || Jsoup解析字符串||Jsoup解析文件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: HttpClient的连接池||Http
- 下一篇: 使用dom方