日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jsoup的使用

發布時間:2024/1/1 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 jsoup的使用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文在寫作過程中參考了官方文檔,傳送門。

一、jsoup概述

??jsoup 是一款基于 Java 的HTML解析器,它提供了一套非常省力的API,不但能直接解析某個URL地址、HTML文本內容,而且還能通過類似于DOM、CSS或者jQuery的方法來操作數據,所以 jsoup 也可以被當做爬蟲工具使用。


二、相關概念簡介

  • Document :文檔對象。每份HTML頁面都是一個文檔對象,Document 是 jsoup 體系中最頂層的結構。
  • Element:元素對象。一個 Document 中可以著包含著多個 Element 對象,可以使用 Element 對象來遍歷節點提取數據或者直接操作HTML。
  • Elements:元素對象集合,類似于List<Element>。
  • Node:節點對象。標簽名稱、屬性等都是節點對象,節點對象用來存儲數據。
  • 類繼承關系:Document 繼承自 Element ,Element 繼承自 Node。
  • 一般執行流程:先獲取 Document 對象,然后獲取 Element 對象,最后再通過 Node 對象獲取數據。

三、獲取文檔(Document)

獲得文檔對象 Document 一共有4種方法,分別對應不同的獲取方式。

正式開始之前,我們需要導入有關 jar 包。

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.1</version> </dependency>

3.1)從URL中加載文檔對象(常用)

使用 Jsoup.connect(String url).get()方法獲取(只支持 http 和 https 協議):

Document doc = Jsoup.connect("http://csdn.com/").get();String title = doc.title(); System.out.println(title);

connect(String url)方法創建一個新的 Connection并通過.get()或者.post()方法獲得數據。如果從該URL獲取HTML時發生錯誤,便會拋出 IOException,應適當處理。

Connection 接口還提供一個方法鏈來解決特殊請求,我們可以在發送請求時帶上請求的頭部參數,具體如下:

Document doc = Jsoup.connect("http://csdn.com").data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(8000).post();System.out.println(doc);

想獲得完整的響應對象和響應碼?我們可以使用execute()方法:

// 獲得響應對象 Connection.Response response = Jsoup.connect("http://csdn.com").execute(); int code = response.statusCode();// 輸出狀態碼:200 System.out.println(code);

3.2)從本地文件中加載文檔對象

可以使用靜態的Jsoup.parse(File in, String charsetName) 方法從文件中加載文檔。其中in表示路徑,charsetName表示編碼方式,示例代碼:

File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8"); System.out.println(doc);

3.3)從字符串文本中加載文檔對象

使用靜態的Jsoup.parse(String html) 方法可以從字符串文本中獲得文檔對象 Document ,示例代碼:

String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html); System.out.println(doc);

3.4)從<body>片斷中獲取文檔對象

使用Jsoup.parseBodyFragment(String html)方法.

String html = "<p>Lorem ipsum.</p>"; Document doc = Jsoup.parseBodyFragment(html); // doc 此時為:<body> <p>Lorem ipsum.</p></body>Element body = doc.body(); System.out.println(body);

parseBodyFragment 方法創建一個新的文檔,并插入解析過的HTML到body元素中。假如你使用正常的 Jsoup.parse(String html) 方法,通常也能得到相同的結果,但是明確將用戶輸入作為 body 片段處理是個更好的方式。

Document.body() 方法能夠取得文檔body元素的所有子元素,與 doc.getElementsByTag("body")相同。


四、選擇元素(Element)

解析文檔對象并獲取數據一共有 2 種方式,分別為 DOM方式、CSS選擇器方式,我們可以選擇一種自己喜歡的方式去獲取數據,效果一樣。

4.1)DOM方式

將HTML解析成一個Document之后,就可以使用類似于DOM的方法進行操作。

// 獲取csdn首頁所有的鏈接 Document doc = Jsoup.connect("http://csdn.com").get();Elements elements = doc.getElementsByTag("body"); Elements contents = elements.first().getElementsByTag("a");for (Element content : contents) {String linkHref = content.attr("href");String linkText = content.text();System.out.print(linkText+"\t");System.out.println(linkHref); }

說明

Elements這個對象提供了一系列類似于DOM的方法來查找元素,抽取并處理其中的數據。具體如下:

4.1.1)查找元素

  • getElementById(String id):通過id來查找元素
  • getElementsByTag(String tag):通過標簽來查找元素
  • getElementsByClass(String className):通過類選擇器來查找元素
  • getElementsByAttribute(String key) :通過屬性名稱來查找元素,例如查找帶有href元素的標簽。
  • siblingElements():獲取兄弟元素。如果元素沒有兄弟元素,則返回一個空列表。
  • firstElementSibling():獲取第一個兄弟元素。
  • lastElementSibling():獲取最后一個兄弟元素。
  • nextElementSibling():獲取下一個兄弟元素。
  • previousElementSibling():獲取上一個兄弟元素。
  • parent():獲取此節點的父節點。
  • children():獲取此節點的所有子節點。
  • child(int index):獲取此節點的指定子節點。

4.1.2)獲取元素數據

  • attr(String key):獲取單個屬性值
  • attributes():獲取所有屬性值
  • attr(String key, String value):設置屬性值
  • text():獲取文本內容
  • text(String value):設置文本內容
  • html():獲取元素內的HTML內容
  • html(String value):設置元素內的HTML內容
  • outerHtml():獲取元素外HTML內容
  • data():獲取數據內容(例如:script和style標簽)
  • id():獲得id值(例:<p id="goods">衣服</p>)
  • className():獲得第一個類選擇器值
  • classNames():獲得所有的類選擇器值
  • tag():獲取元素標簽
  • tagName():獲取元素標簽名(如:<p>、<div>等)

4.1.3)操作HTML文本

  • append(String html):在末尾追加HTML文本
  • prepend(String html):在開頭追加HTML文本
  • html(String value):在匹配元素內部添加HTML文本。

4.2)CSS選擇器方式

可以使用類似于CSS選擇器的語法來查找和操作元素,常用的方法為select(String selector)。

Document doc = Jsoup.connect("http://csdn.com").get();// 獲取帶有 href 屬性的 a 元素 Elements elements = doc.select("a[href]");for (Element content : elements) {String linkHref = content.attr("href");String linkText = content.text();System.out.print(linkText + "\t");System.out.println(linkHref); }

4.2.1)說明

select()方法在Document、Element或Elements對象中都可以使用,而且是上下文相關的,因此可實現指定元素的過濾,或者采用鏈式訪問。

select() 方法將返回一個Elements集合,并提供一組方法來抽取和處理結果。

4.2.2)select(String selector)方法參數簡介

  • tagname: 通過標簽查找元素,例如通過"a"來查找<a>標簽。
  • #id: 通過ID查找元素,比如通過#logo查找<p id="logo">。
  • .class: 通過class名稱查找元素,比如通過.titile查找<p class="titile">。
  • ns|tag: 通過標簽在命名空間查找元素,比如使用 fb|name 來查找 <fb:name> 。
  • [attribute]: 利用屬性查找元素,比如通過[href]查找<a href="...">。
  • [^attribute]: 利用屬性名前綴來查找元素,比如:可以用[^data-] 來查找帶有HTML5 dataset屬性的元素。
  • [attribute=value]: 利用屬性值來查找元素,比如:[width=500]。
  • [attribute^=value], [attribute$=value], [attribute*=value]: 利用匹配屬性值開頭、結尾或包含屬性值來查找元素,比如通過[href*=/path/]來查找<a href="a/path/c.html">。
  • [attribute~=regex]: 利用屬性值匹配正則表達式來查找元素,比如通過 img[src~=(?i)\.(png|jpe?g)]來匹配所有的png或者jpg、jpeg格式的圖片。
  • *: 通配符,匹配所有元素。

4.2.3)參數屬性組合使用

  • el#id: 元素+ID,比如: div#logo
  • el.class: 元素+class,比如: div.masthead
  • el[attr]: 元素+class,比如 a[href]匹配所有帶有 href 屬性的 a 元素。
  • 任意組合,比如:a[href].highlight匹配所有帶有 href 屬性且class="highlight"的 a 元素。
  • ancestor child: 查找某個元素下子元素,比如:可以用.body p 查找在"body"元素下的所有 p元素
  • parent > child: 查找某個父元素下的直接子元素,比如:可以用div.content > p 查找 p 元素,也可以用body > * 查找body標簽下所有直接子元素
  • siblingA + siblingB: 查找在A元素之前第一個同級元素B,比如:div.head + div
  • siblingA ~ siblingX: 查找A元素之前的同級X元素,比如:h1 ~ p
  • el, el, el:多個選擇器組合,查找匹配任一選擇器的唯一元素,例如:div.masthead, div.logo

4.2.4)特殊參數:偽選擇器

  • :lt(n): 查找哪些元素的同級索引值(它的位置在DOM樹中是相對于它的父節點)小于n,比如:td:lt(3) 表示小于三列的元素
  • :gt(n):查找哪些元素的同級索引值大于n``,比如: div p:gt(2)表示哪些div中有包含2個以上的p元素
  • :eq(n): 查找哪些元素的同級索引值與n相等,比如:form input:eq(1)表示包含一個input標簽的Form元素
  • :has(seletor): 查找匹配選擇器包含元素的元素,比如:div:has(p)表示哪些div包含了p元素
  • :not(selector): 查找與選擇器不匹配的元素,比如: div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
  • :contains(text): 查找包含給定文本的元素,搜索不區分大不寫,比如: p:contains(jsoup)
  • :containsOwn(text): 查找直接包含給定文本的元素
  • :matches(regex): 查找哪些元素的文本匹配指定的正則表達式,比如:div:matches((?i)login)
  • :matchesOwn(regex): 查找自身包含文本匹配指定正則表達式的元素
  • 注意:上述偽選擇器索引是從0開始的,也就是說第一個元素索引值為0,第二個元素index為1等

五、獲取數據(Node)

在獲得文檔對象并且指定查找元素后,我們就可以獲取元素中的數據。
這些訪問器方法都有相應的setter方法來更改數據。

  • .attr(String key) :獲得屬性的值。
  • .text():獲得元素中的文本。
  • .html():獲得元素或屬性內部的HTML內容(不包括本身)。
  • .outerHtml():獲得元素或屬性完整的HTML內容。
  • .id():獲得元素id屬性值。
  • className():獲得元素類選擇器值。
  • .tagName():獲得元素標簽命名。
  • .hasClass(String className):檢查這個元素是否含有一個類選擇器(不區分大小寫)。
String html = "<p><a href='http://csdn.com/'><b>example</b></a> link.</p>"; Document doc = Jsoup.parse(html);// 查找第一個<a>元素 Element link = doc.select("a").first();// 輸出:example String text = link.text(); // 輸出:http://csdn.com/ String href = link.attr("href"); // 輸出:<b>example</b> String aHtml = link.outerHtml(); // 輸出:<a href='http://csdn.com/'><b>example</b></a> String aOuterHtml = link.outerHtml();


六、修改數據

在解析了一個Document對象之后,你可能想修改其中的某些屬性值,并把它輸出到前臺頁面或保存到其他地方,jsoup對此提供了一套非常簡便的接口(支持鏈式寫法)。

6.1)設置屬性的值

當以下方法針對Element對象操作時,只有一個元素會受到影響。當針對Elements對象進行操作時,可能會影響到多個元素。

  • .attr(String key, String value):設置標簽的屬性值。
  • .addClass(String className):增加類選擇器選項
  • .removeClass(String className):刪除對應的類選擇器
Document doc = Jsoup.connect("http://csdn.com").get();// 復數,Elements Elements elements = doc.getElementsByClass("text"); // 單數,Element Element element = elements.first();// 復數對象,所有 class="text" 的元素都將受到影響 elements.attr("name","goods"); // 單數對象,只有一個元素會受到影響(鏈式寫法) element.attr("name","shop").addClass("red");

6.2)修改元素的HTML內容

可以使用Element中的HTML設置方法具體如下:

  • .html(String value):這個方法將先清除元素中的HTML內容,然后用傳入的HTML代替。
  • .prepend(String value):在元素添加html內容。
  • .append(String value):在元素添加html內容。
  • .wrap(String value):對元素包裹一個外部HTML內容,將元素置于新增的內容中間。
Document doc = Jsoup.connect("http://csdn.com").get();Element div = doc.select("div").first(); div.html("<p>csdn</p>"); div.prepend("<p>a</p>"); div.append("<p>good</p>"); // 輸出:<div"> <p>a</p> <p>csdn</p> <p>good</p> </div>Element span = doc.select("span").first(); span.wrap("<li><a href='...'></a></li>"); // 輸出: <li><a href="..."> <span>csdn</span> </a></li>

6.3)修改元素的文本內容

對于傳入的文本,如果含有像 <, > 等這樣的字符,將以文本處理,而非HTML。

  • .text(String text) :清除元素內部的HTML內容,然后用提供的文本代替。
  • .prepend(String first):在元素添加文本節點。
  • Element.append(String last):在元素添加文本節點。
// <div></div> Element div = doc.select("div").first();div.text(" one "); div.prepend(" two "); div.append(" three "); // 輸出: <div> two one three </div>

七、其他功能

6.1)相對路徑轉絕對路徑

問題描述
??你有一個包含相對URLs路徑的HTML文檔,現在需要將這些相對路徑轉換成絕對路徑的URLs。

解決方式

  • 確保在你解析文檔時有指定base URI路徑。
  • 然后使用 abs: 屬性前綴來取得包含base URI的絕對路徑。代碼如下:
  • Document doc = Jsoup.connect("http://www.open-open.com").get(); Element link = doc.select("a").first();// 輸出:/ String relHref = link.attr("href");// 輸出:http://www.open-open.com/ String absHref = link.attr("abs:href");

    說明

    在HTML元素中,URLs經常寫成相對于文檔位置的相對路徑,如:<a href="/download">...</a>。當你使用 .attr(String key) 方法來取得a元素的href屬性時,它將直接返回在HTML源碼中指定的值。

    假如你需要取得一個絕對路徑,需要在屬性名前加 abs: 前綴,這樣就可以返回包含根路徑的URL地址attr("abs:href")。因此在解析HTML文檔時,定義base URI非常重要。

    如果你不想使用abs: 前綴,還有一個方法能夠實現同樣的功能 .absUrl(String key)。

    6.2)消除不受信任的HTML (防止XSS攻擊)

    問題描述

    ??在某些網站中經常會提供用戶評論的功能,但是有些不懷好意的用戶,會搞一些腳本到評論內容中,而這些腳本可能會破壞整個頁面的行為,更嚴重的是獲取一些機要信息,此時需要清理該HTML,以避免跨站腳本攻擊(XSS)。

    解決方式
    ??使用clean()方法清除惡意代碼,但需要指定一個配置的 Safelist(舊版本中是Whitelist),通常使用Safelist.basic()即可。Safelist的工作原理是將輸入的 HTML 內容單獨隔離解析,然后遍歷解析樹,只允許已知的安全標簽和屬性輸出。

    String unsafe = "<p><a href='http://csdn.com/' οnclick='attack()'>Link</a></p>";// 輸出: <p><a href="http://csdn.com/" >Link</a></p> String safe = Jsoup.clean(unsafe, Safelist.basic()); System.out.println(safe);

    說明

    ??jsoup的Safelist不僅能夠在服務器端對用戶輸入的HTML進行過濾,只輸出一些安全的標簽和屬性,還可以限制用戶可以輸入的標簽范圍。

    6.2)消除不受信任的HTML (防止XSS攻擊)

    問題描述

    ??在某些網站中經常會提供用戶評論的功能,但是有些不懷好意的用戶,會搞一些腳本到評論內容中,而這些腳本可能會破壞整個頁面的行為,更嚴重的是獲取一些機要信息,此時需要清理該HTML,以避免跨站腳本攻擊(XSS)。

    解決方式
    ??使用clean()方法清除惡意代碼,但需要指定一個配置的 Safelist(舊版本中是Whitelist),通常使用Safelist.basic()即可。Safelist的工作原理是將輸入的 HTML 內容單獨隔離解析,然后遍歷解析樹,只允許已知的安全標簽和屬性輸出。

    String unsafe = "<p><a href='http://csdn.com/' οnclick='attack()'>Link</a></p>";// 輸出: <p><a href="http://csdn.com/" >Link</a></p> String safe = Jsoup.clean(unsafe, Safelist.basic()); System.out.println(safe);

    說明

    ??jsoup的Safelist不僅能夠在服務器端對用戶輸入的HTML進行過濾,只輸出一些安全的標簽和屬性,還可以限制用戶可以輸入的標簽范圍。

    6.3)jsoup使用代理

    Connection.Response execute = Jsoup.connect("http://csdn.net/").proxy("12.12.12.12", 1080) // 使用代理.execute();

    如果你讀完覺得有收獲,不妨點個贊~

    總結

    以上是生活随笔為你收集整理的jsoup的使用的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 国产免费一区二区三区最新不卡 | 久久久久久久久久久久国产精品 | 人妖videosex高潮另类 | 爱爱小视频免费看 | 在线观看自拍 | 奇米影视狠狠 | 久久av中文字幕 | 国产做受高潮漫动 | 欧美日韩一区二区三区四区五区 | 成人夜色 | 美女免费福利视频 | 国产精品网站入口 | 一个人看的www视频在线观看 | 久在线观看视频 | 亚洲免费小视频 | 亚洲欧洲精品一区二区三区 | 亚洲风情av | 久久精品激情 | 日本一二区视频 | 国产福利精品在线 | 欧美激情三区 | 超碰97av在线 | 99色网 | 激情青青草 | 亚洲综合射 | 黑人添美女bbb添高潮了 | 国产午夜精品一区二区三区 | 美女色诱男人激情视频 | 草草视频在线观看 | 你懂的在线观看视频 | 国产一级特黄视频 | 狠狠艹狠狠干 | 久久久久久精 | 国产视频不卡 | 天天操天天操天天 | 成人免费久久 | 成人毛片在线免费观看 | 午夜看黄神器 | 四虎永久免费在线观看 | 亚洲国产999 | 99国产精品99久久久久久粉嫩 | 国产浮力影院 | 91黄色免费观看 | 潘金莲一级淫片aaaaaaa | 在线中文字幕第一页 | 日本成人在线免费 | 奶罩不戴乳罩邻居hd播放 | av一区在线播放 | 情侣黄网站免费看 | 国产极品在线播放 | 久久精品动漫 | 欧美三个黑人玩3p | 九色91popny蝌蚪 | 9久久9毛片又大又硬又粗 | 成人福利视频网站 | 蜜臀久久精品久久久用户群体 | 91久久中文字幕 | 亚洲人妖在线 | 少妇熟女高潮流白浆 | 伊人久久久久久久久久久久 | 君岛美绪在线 | www.69av.com| 91影院在线播放 | 人人操日日干 | 龚玥菲一级淫片 | av涩涩| 九九久久精品 | 小视频在线播放 | 日本高清视频在线播放 | 黄色成人一级片 | 日韩精品伦理 | 成人理论影院 | 日韩亚洲欧美一区 | 18性xxxxx性猛交 | 91久久精品夜夜躁日日躁欧美 | 日韩视频在线视频 | 性欧美69| 风间由美一二三区av片 | 欧美一级片 | 欧美黑人狂野猛交老妇 | 三年中国片在线高清观看 | 欧美日韩成人一区 | jizzzz中国 | 五月天爱爱 | 国产一区二区小视频 | 中文字幕高清在线播放 | 亚洲一区免费在线观看 | 国产精品无圣光 | 高h喷水荡肉少妇爽多p视频 | 亚洲三级在线免费观看 | 人人澡人人添 | 伊人www | 久久第一页 | 男男成人高潮片免费网站 | 国产成人亚洲精品自产在线 | 国产女优在线播放 | 久久久久久久性 | wwwxxxx日本 | 中文字幕在线观看亚洲 |