當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

java 网页正文抽取算法_网页正文抽取算法 ContentExtractor

發(fā)布時(shí)間：2024/7/19 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 java 网页正文抽取算法_网页正文抽取算法 ContentExtractor 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

軟件介紹

簡(jiǎn)介

ContentExtractor 是一個(gè)開(kāi)源的網(wǎng)頁(yè)正文抽取工具，用JAVA實(shí)現(xiàn)，具有非常高的抽取精度。

算法

ContentExtractor的網(wǎng)頁(yè)正文抽取算法使用的是CEPR，適用于幾乎所有的包含正文的網(wǎng)頁(yè)。算法簡(jiǎn)介：

項(xiàng)目地址轉(zhuǎn)移

項(xiàng)目已和WebCollector合并，當(dāng)前項(xiàng)目為老版本ContentExtractor,請(qǐng)前往WebCollector項(xiàng)目查看ContentExtractor的最新版本源碼和API。

教程(只適用于老版本，新版本請(qǐng)前往WebCollector)

ContentExtractor的接口非常簡(jiǎn)單，用戶可以根據(jù)網(wǎng)頁(yè)的url，或者網(wǎng)頁(yè)的html，來(lái)進(jìn)行網(wǎng)頁(yè)正文抽取：

根據(jù)url，抽取網(wǎng)頁(yè)的正文：

public?static?void?main(String[]?args)?throws?Exception?{

String?content=ContentExtractor.getContentByURL("http://news.

xinhuanet.com/world/2014-11/02/c_127166728.htm");

System.out.println(content);

}

根據(jù)html，抽取網(wǎng)頁(yè)的正文：

public?static?void?main(String[]?args)?throws?Exception?{

String?html="獲取到的html源碼";

String?content=ContentExtractor.getContentByHtml(html);

System.out.println(content);

}

導(dǎo)入項(xiàng)目(只適用于老版本，新版本請(qǐng)前往WebCollector)

從ContentExtractor的github主頁(yè)https://github.com/hfut-dmic/ContentExtractor上下載ContentExtractor-{版本號(hào)}-bin.zip,將解壓后得到的jar包全部放到工程的build path即可。

ContentExtractor由合肥工業(yè)大學(xué)dmic團(tuán)隊(duì)開(kāi)發(fā)

為你推薦:

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

以上是生活随笔為你收集整理的java 网页正文抽取算法_网页正文抽取算法 ContentExtractor的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。