日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

java 网页正文抽取算法_网页正文抽取算法 ContentExtractor

發布時間:2024/7/19 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 java 网页正文抽取算法_网页正文抽取算法 ContentExtractor 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

軟件介紹

簡介

ContentExtractor 是一個開源的網頁正文抽取工具,用JAVA實現,具有非常高的抽取精度。

算法

ContentExtractor的網頁正文抽取算法使用的是CEPR,適用于幾乎所有的包含正文的網頁。 算法簡介:

項目地址轉移

項目已和WebCollector合并,當前項目為老版本ContentExtractor,請前往WebCollector項目查看ContentExtractor的最新版本源碼和API。

教程(只適用于老版本,新版本請前往WebCollector)

ContentExtractor的接口非常簡單,用戶可以根據網頁的url,或者網頁的html,來進行網頁正文抽取:

根據url,抽取網頁的正文:

public?static?void?main(String[]?args)?throws?Exception?{

String?content=ContentExtractor.getContentByURL("http://news.

xinhuanet.com/world/2014-11/02/c_127166728.htm");

System.out.println(content);

}

根據html,抽取網頁的正文:

public?static?void?main(String[]?args)?throws?Exception?{

String?html="獲取到的html源碼";

String?content=ContentExtractor.getContentByHtml(html);

System.out.println(content);

}

導入項目(只適用于老版本,新版本請前往WebCollector)

從ContentExtractor的github主頁https://github.com/hfut-dmic/ContentExtractor上下載ContentExtractor-{版本號}-bin.zip,將解壓后得到的jar包全部放到工程的build path即可。

ContentExtractor由合肥工業大學dmic團隊開發

為你推薦:

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的java 网页正文抽取算法_网页正文抽取算法 ContentExtractor的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。