當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Jsoup代码解读之一-概述

發布時間：2023/12/3 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Jsoup代码解读之一-概述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自? ?Jsoup代碼解讀之一-概述

今天看到一個用python寫的抽取正文的東東，美滋滋的用Java實現了一番，放到了webmagic里，然后發現Jsoup里已經有了…覺得自己各種不靠譜啊！算了，靜下心來學學好東西吧！

Jsoup是Java世界用作html解析和過濾的不二之選。支持將html解析為DOM樹、支持CSS Selector形式選擇、支持html過濾，本身還附帶了一個Http下載器。從今天開始會寫一個Jsoup源碼解讀系列，比起之前的博客，盡量會寫的詳盡一些。

概述

Jsoup的代碼相當簡潔，Jsoup總共53個類，且沒有任何第三方包的依賴，對比最終發行包9.8M的SAXON，實在算得上是短小精悍了。

jsoup ├── examples #樣例，包括一個將html轉為純文本和一個抽取所有鏈接地址的例子。 ├── helper #一些工具類，包括讀取數據、處理連接以及字符串轉換的工具 ├── nodes #DOM節點定義 ├── parser #解析html并轉換為DOM樹 ├── safety #安全相關，包括白名單及html過濾 └── select #選擇器，支持CSS Selector以及NodeVisitor格式的遍歷

使用

Jsoup的入口是Jsoup類。examples包里提供了兩個例子，解析html后，分別用CSS Selector以及NodeVisitor來操作Dom元素。

這里用ListLinks里的例子來說明如何調用Jsoup：

public static void main(String[] args) throws IOException {Validate.isTrue(args.length == 1, "usage: supply url to fetch");String url = args[0];print("Fetching %s...", url);// 下載url并解析成html DOM結構Document doc = Jsoup.connect(url).get();// 使用select方法選擇元素，參數是CSS Selector表達式Elements links = doc.select("a[href]");print("\nLinks: (%d)", links.size());for (Element link : links) {//使用abs:前綴取絕對url地址print(" * a: <%s> (%s)", link.attr("abs:href"), trim(link.text(), 35));} }

Jsoup使用了自己的一套DOM代碼體系，這里的Elements、Element等雖然名字和概念都與Java XML APIorg.w3c.dom類似，但并沒有代碼層面的關系。就是說你想用XML的一套API來操作Jsoup的結果是辦不到的，但是正因為如此，才使得Jsoup可以拋棄xml里一些繁瑣的API，使得代碼更加簡單。

還有一種方式是通過NodeVisitor來遍歷DOM樹，這個在對整個html做分析和替換時比較有用：

public interface NodeVisitor {//遍歷到節點開始時，調用此方法public void head(Node node, int depth);//遍歷到節點結束時(所有子節點都已遍歷完)，調用此方法public void tail(Node node, int depth); }

HtmlToPlainText的例子說明了如何使用NodeVisitor來遍歷DOM樹，將html轉化為純文本，并將需要換行的標簽替換為換行\n：

public static void main(String... args) throws IOException {Validate.isTrue(args.length == 1, "usage: supply url to fetch");String url = args[0];// fetch the specified URL and parse to a HTML DOMDocument doc = Jsoup.connect(url).get();HtmlToPlainText formatter = new HtmlToPlainText();String plainText = formatter.getPlainText(doc);System.out.println(plainText); }public String getPlainText(Element element) {//自定義一個NodeVisitor - FormattingVisitorFormattingVisitor formatter = new FormattingVisitor();//使用NodeTraversor來裝載FormattingVisitorNodeTraversor traversor = new NodeTraversor(formatter);//進行遍歷traversor.traverse(element);return formatter.toString(); }

下一節將從DOM結構開始對Jsoup代碼進行分析。

總結

以上是生活随笔為你收集整理的Jsoup代码解读之一-概述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

代码
Jsoup

上一篇：最适合打游戏的电脑配置（电脑玩游戏的配置
下一篇： JAVA缓存的实现