當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jsoup的使用

發布時間：2024/1/1 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 jsoup的使用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文在寫作過程中參考了官方文檔，傳送門。

一、jsoup概述

??jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某個URL地址、HTML文本內容，而且還能通過類似于DOM、CSS或者jQuery的方法來操作數據，所以 jsoup 也可以被當做爬蟲工具使用。

二、相關概念簡介

Document ：文檔對象。每份HTML頁面都是一個文檔對象，Document 是 jsoup 體系中最頂層的結構。
Element：元素對象。一個 Document 中可以著包含著多個 Element 對象，可以使用 Element 對象來遍歷節點提取數據或者直接操作HTML。
Elements：元素對象集合，類似于List<Element>。
Node：節點對象。標簽名稱、屬性等都是節點對象，節點對象用來存儲數據。
類繼承關系：Document 繼承自 Element ，Element 繼承自 Node。
一般執行流程：先獲取 Document 對象，然后獲取 Element 對象，最后再通過 Node 對象獲取數據。

三、獲取文檔（Document）

獲得文檔對象 Document 一共有4種方法，分別對應不同的獲取方式。

正式開始之前，我們需要導入有關 jar 包。

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.1</version> </dependency>

–

3.1）從URL中加載文檔對象（常用）

使用 Jsoup.connect(String url).get()方法獲取（只支持 http 和 https 協議）:

Document doc = Jsoup.connect("http://csdn.com/").get();String title = doc.title(); System.out.println(title);

connect(String url)方法創建一個新的 Connection并通過.get()或者.post()方法獲得數據。如果從該URL獲取HTML時發生錯誤，便會拋出 IOException，應適當處理。

Connection 接口還提供一個方法鏈來解決特殊請求，我們可以在發送請求時帶上請求的頭部參數，具體如下：

Document doc = Jsoup.connect("http://csdn.com").data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(8000).post();System.out.println(doc);

想獲得完整的響應對象和響應碼？我們可以使用execute()方法：

// 獲得響應對象 Connection.Response response = Jsoup.connect("http://csdn.com").execute(); int code = response.statusCode();// 輸出狀態碼：200 System.out.println(code);

–

3.2）從本地文件中加載文檔對象

可以使用靜態的Jsoup.parse(File in, String charsetName) 方法從文件中加載文檔。其中in表示路徑，charsetName表示編碼方式，示例代碼：

File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8"); System.out.println(doc);

–

3.3）從字符串文本中加載文檔對象

使用靜態的Jsoup.parse(String html) 方法可以從字符串文本中獲得文檔對象 Document ，示例代碼：

String html = "<html><head><title>First parse</title></head>"+ "<body>Parsed HTML into a doc.</body></html>";Document doc = Jsoup.parse(html); System.out.println(doc);

–

3.4）從<body>片斷中獲取文檔對象

使用Jsoup.parseBodyFragment(String html)方法.

String html = "Lorem ipsum."; Document doc = Jsoup.parseBodyFragment(html); // doc 此時為：<body> Lorem ipsum.</body>Element body = doc.body(); System.out.println(body);

parseBodyFragment 方法創建一個新的文檔，并插入解析過的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常也能得到相同的結果，但是明確將用戶輸入作為 body 片段處理是個更好的方式。

Document.body() 方法能夠取得文檔body元素的所有子元素，與 doc.getElementsByTag("body")相同。

四、選擇元素（Element）

解析文檔對象并獲取數據一共有 2 種方式，分別為 DOM方式、CSS選擇器方式，我們可以選擇一種自己喜歡的方式去獲取數據，效果一樣。

4.1）DOM方式

將HTML解析成一個Document之后，就可以使用類似于DOM的方法進行操作。

// 獲取csdn首頁所有的鏈接 Document doc = Jsoup.connect("http://csdn.com").get();Elements elements = doc.getElementsByTag("body"); Elements contents = elements.first().getElementsByTag("a");for (Element content : contents) {String linkHref = content.attr("href");String linkText = content.text();System.out.print(linkText+"\t");System.out.println(linkHref); }

說明

Elements這個對象提供了一系列類似于DOM的方法來查找元素，抽取并處理其中的數據。具體如下：

4.1.1）查找元素

getElementById(String id)：通過id來查找元素
getElementsByTag(String tag)：通過標簽來查找元素
getElementsByClass(String className)：通過類選擇器來查找元素
getElementsByAttribute(String key) ：通過屬性名稱來查找元素，例如查找帶有href元素的標簽。
siblingElements()：獲取兄弟元素。如果元素沒有兄弟元素，則返回一個空列表。
firstElementSibling()：獲取第一個兄弟元素。
lastElementSibling()：獲取最后一個兄弟元素。
nextElementSibling()：獲取下一個兄弟元素。
previousElementSibling()：獲取上一個兄弟元素。
parent()：獲取此節點的父節點。
children()：獲取此節點的所有子節點。
child(int index)：獲取此節點的指定子節點。

4.1.2）獲取元素數據

attr(String key)：獲取單個屬性值
attributes()：獲取所有屬性值
attr(String key, String value)：設置屬性值
text()：獲取文本內容
text(String value)：設置文本內容
html()：獲取元素內的HTML內容
html(String value)：設置元素內的HTML內容
outerHtml()：獲取元素外HTML內容
data()：獲取數據內容（例如：script和style標簽)
id()：獲得id值（例：衣服）
className()：獲得第一個類選擇器值
classNames()：獲得所有的類選擇器值
tag()：獲取元素標簽
tagName()：獲取元素標簽名（如：、<div>等）

4.1.3）操作HTML文本

append(String html)：在末尾追加HTML文本
prepend(String html)：在開頭追加HTML文本
html(String value)：在匹配元素內部添加HTML文本。

–

4.2）CSS選擇器方式

可以使用類似于CSS選擇器的語法來查找和操作元素，常用的方法為select(String selector)。

Document doc = Jsoup.connect("http://csdn.com").get();// 獲取帶有 href 屬性的 a 元素 Elements elements = doc.select("a[href]");for (Element content : elements) {String linkHref = content.attr("href");String linkText = content.text();System.out.print(linkText + "\t");System.out.println(linkHref); }

4.2.1）說明

select()方法在Document、Element或Elements對象中都可以使用，而且是上下文相關的，因此可實現指定元素的過濾，或者采用鏈式訪問。

select() 方法將返回一個Elements集合，并提供一組方法來抽取和處理結果。

4.2.2）select(String selector)方法參數簡介

tagname: 通過標簽查找元素，例如通過"a"來查找<a>標簽。
#id: 通過ID查找元素，比如通過#logo查找。
.class: 通過class名稱查找元素，比如通過.titile查找。
ns|tag: 通過標簽在命名空間查找元素，比如使用 fb|name 來查找 <fb:name> 。
[attribute]: 利用屬性查找元素，比如通過[href]查找<a href="...">。
[^attribute]: 利用屬性名前綴來查找元素，比如：可以用[^data-] 來查找帶有HTML5 dataset屬性的元素。
[attribute=value]: 利用屬性值來查找元素，比如：[width=500]。
[attribute^=value], [attribute$=value], [attribute*=value]: 利用匹配屬性值開頭、結尾或包含屬性值來查找元素，比如通過[href*=/path/]來查找<a href="a/path/c.html">。
[attribute~=regex]: 利用屬性值匹配正則表達式來查找元素，比如通過 img[src~=(?i)\.(png|jpe?g)]來匹配所有的png或者jpg、jpeg格式的圖片。
*: 通配符，匹配所有元素。

4.2.3）參數屬性組合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如 a[href]匹配所有帶有 href 屬性的 a 元素。
任意組合，比如：a[href].highlight匹配所有帶有 href 屬性且class="highlight"的 a 元素。
ancestor child: 查找某個元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某個父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body標簽下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一個同級元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同級X元素，比如：h1 ~ p
el, el, el:多個選擇器組合，查找匹配任一選擇器的唯一元素，例如：div.masthead, div.logo

4.2.4）特殊參數：偽選擇器

:lt(n): 查找哪些元素的同級索引值（它的位置在DOM樹中是相對于它的父節點）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同級索引值大于n``，比如： div p:gt(2)表示哪些div中有包含2個以上的p元素
:eq(n): 查找哪些元素的同級索引值與n相等，比如：form input:eq(1)表示包含一個input標簽的Form元素
:has(seletor): 查找匹配選擇器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找與選擇器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含給定文本的元素，搜索不區分大不寫，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含給定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正則表達式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正則表達式的元素
注意：上述偽選擇器索引是從0開始的，也就是說第一個元素索引值為0，第二個元素index為1等

五、獲取數據（Node）

在獲得文檔對象并且指定查找元素后，我們就可以獲取元素中的數據。
這些訪問器方法都有相應的setter方法來更改數據。

.attr(String key) ：獲得屬性的值。
.text()：獲得元素中的文本。
.html()：獲得元素或屬性內部的HTML內容（不包括本身）。
.outerHtml()：獲得元素或屬性完整的HTML內容。
.id()：獲得元素id屬性值。
className()：獲得元素類選擇器值。
.tagName()：獲得元素標簽命名。
.hasClass(String className)：檢查這個元素是否含有一個類選擇器（不區分大小寫）。

String html = "<a href='http://csdn.com/'>example</a> link."; Document doc = Jsoup.parse(html);// 查找第一個<a>元素 Element link = doc.select("a").first();// 輸出：example String text = link.text(); // 輸出：http://csdn.com/ String href = link.attr("href"); // 輸出：example String aHtml = link.outerHtml(); // 輸出：<a href='http://csdn.com/'>example</a> String aOuterHtml = link.outerHtml();

–

六、修改數據

在解析了一個Document對象之后，你可能想修改其中的某些屬性值，并把它輸出到前臺頁面或保存到其他地方，jsoup對此提供了一套非常簡便的接口（支持鏈式寫法）。

6.1）設置屬性的值

當以下方法針對Element對象操作時，只有一個元素會受到影響。當針對Elements對象進行操作時，可能會影響到多個元素。

.attr(String key, String value)：設置標簽的屬性值。
.addClass(String className)：增加類選擇器選項
.removeClass(String className)：刪除對應的類選擇器

Document doc = Jsoup.connect("http://csdn.com").get();// 復數，Elements Elements elements = doc.getElementsByClass("text"); // 單數，Element Element element = elements.first();// 復數對象，所有 class="text" 的元素都將受到影響 elements.attr("name","goods"); // 單數對象，只有一個元素會受到影響（鏈式寫法） element.attr("name","shop").addClass("red");

6.2）修改元素的HTML內容

可以使用Element中的HTML設置方法具體如下：

.html(String value)：這個方法將先清除元素中的HTML內容，然后用傳入的HTML代替。
.prepend(String value)：在元素前添加html內容。
.append(String value)：在元素后添加html內容。
.wrap(String value)：對元素包裹一個外部HTML內容，將元素置于新增的內容中間。

Document doc = Jsoup.connect("http://csdn.com").get();Element div = doc.select("div").first(); div.html("csdn"); div.prepend("a"); div.append("good"); // 輸出：<div"> a csdn good </div>Element span = doc.select("span").first(); span.wrap("<li><a href='...'></a></li>"); // 輸出: <li><a href="..."> csdn </a></li>

6.3）修改元素的文本內容

對于傳入的文本，如果含有像 <, > 等這樣的字符，將以文本處理，而非HTML。

.text(String text) ：清除元素內部的HTML內容，然后用提供的文本代替。
.prepend(String first)：在元素后添加文本節點。
Element.append(String last)：在元素前添加文本節點。

// <div></div> Element div = doc.select("div").first();div.text(" one "); div.prepend(" two "); div.append(" three "); // 輸出: <div> two one three </div>

七、其他功能

6.1）相對路徑轉絕對路徑

問題描述：
??你有一個包含相對URLs路徑的HTML文檔，現在需要將這些相對路徑轉換成絕對路徑的URLs。

解決方式：

確保在你解析文檔時有指定base URI路徑。

然后使用 abs: 屬性前綴來取得包含base URI的絕對路徑。代碼如下：

Document doc = Jsoup.connect("http://www.open-open.com").get(); Element link = doc.select("a").first();// 輸出：/ String relHref = link.attr("href");// 輸出：http://www.open-open.com/ String absHref = link.attr("abs:href");

說明：

在HTML元素中，URLs經常寫成相對于文檔位置的相對路徑，如：<a href="/download">...</a>。當你使用 .attr(String key) 方法來取得a元素的href屬性時，它將直接返回在HTML源碼中指定的值。

假如你需要取得一個絕對路徑，需要在屬性名前加 abs: 前綴，這樣就可以返回包含根路徑的URL地址attr("abs:href")。因此在解析HTML文檔時，定義base URI非常重要。

如果你不想使用abs: 前綴，還有一個方法能夠實現同樣的功能 .absUrl(String key)。

–

6.2）消除不受信任的HTML (防止XSS攻擊)

問題描述：

??在某些網站中經常會提供用戶評論的功能，但是有些不懷好意的用戶，會搞一些腳本到評論內容中，而這些腳本可能會破壞整個頁面的行為，更嚴重的是獲取一些機要信息，此時需要清理該HTML，以避免跨站腳本攻擊（XSS）。

解決方式：
??使用clean()方法清除惡意代碼，但需要指定一個配置的 Safelist（舊版本中是Whitelist），通常使用Safelist.basic()即可。Safelist的工作原理是將輸入的 HTML 內容單獨隔離解析，然后遍歷解析樹，只允許已知的安全標簽和屬性輸出。

String unsafe = "<a href='http://csdn.com/' οnclick='attack()'>Link</a>";// 輸出: <a href="http://csdn.com/" >Link</a> String safe = Jsoup.clean(unsafe, Safelist.basic()); System.out.println(safe);

說明：

??jsoup的Safelist不僅能夠在服務器端對用戶輸入的HTML進行過濾，只輸出一些安全的標簽和屬性，還可以限制用戶可以輸入的標簽范圍。

6.2）消除不受信任的HTML (防止XSS攻擊)

問題描述：

說明：

??jsoup的Safelist不僅能夠在服務器端對用戶輸入的HTML進行過濾，只輸出一些安全的標簽和屬性，還可以限制用戶可以輸入的標簽范圍。

–

6.3）jsoup使用代理

Connection.Response execute = Jsoup.connect("http://csdn.net/").proxy("12.12.12.12", 1080) // 使用代理.execute();

如果你讀完覺得有收獲，不妨點個贊~

總結

以上是生活随笔為你收集整理的jsoup的使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

Jsoup

上一篇： AIX基本操作命令
下一篇：基于Simulink模拟具有两个目标的双