日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java使用htmlparser提取网页纯文本例子

發布時間:2023/12/3 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java使用htmlparser提取网页纯文本例子 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自? ?java使用htmlparser提取網頁純文本例子

這篇文章主要介紹了java使用htmlparser提取網頁純文本例子,需要的朋友可以參考下 package com.test; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.TableTag; import org.htmlparser.util.NodeList;/** * 標題:利用htmlparser提取網頁純文本的例子 */ public class TestHTMLParser {public static void testHtml() {try {String sCurrentLine;String sTotalString;sCurrentLine = "";sTotalString = "";java.io.InputStream l_urlStream;java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();l_connection.connect();l_urlStream = l_connection.getInputStream();java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));while ((sCurrentLine = l_reader.readLine()) != null) {sTotalString += sCurrentLine+"/r/n";// System.out.println(sTotalString);}String testText = extractText(sTotalString);System.out.println( testText );} catch (Exception e) {e.printStackTrace();}}public static String extractText(String inputHtml) throws Exception {StringBuffer text = new StringBuffer();Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");// 遍歷所有的節點NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {public boolean accept(Node node) {return true;}});System.out.println(nodes.size()); //打印節點的數量for (int i=0;i<nodes.size();i++){Node nodet = nodes.elementAt(i);//System.out.println(nodet.getText()); text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"/r/n"); }return text.toString();}public static void test5(String resource) throws Exception {Parser myParser = new Parser(resource);myParser.setEncoding("GBK");String filterStr = "table";NodeFilter filter = new TagNameFilter(filterStr);NodeList nodeList = myParser.extractAllNodesThatMatch(filter);TableTag tabletag = (TableTag) nodeList.elementAt(11);}public static void main(String[] args) throws Exception {// test5("http://www.google.com");testHtml();} }

總結

以上是生活随笔為你收集整理的java使用htmlparser提取网页纯文本例子的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。