java 网页正文抽取算法_网页正文抽取算法 ContentExtractor
軟件介紹
簡(jiǎn)介
ContentExtractor 是一個(gè)開(kāi)源的網(wǎng)頁(yè)正文抽取工具,用JAVA實(shí)現(xiàn),具有非常高的抽取精度。
算法
ContentExtractor的網(wǎng)頁(yè)正文抽取算法使用的是CEPR,適用于幾乎所有的包含正文的網(wǎng)頁(yè)。 算法簡(jiǎn)介:
項(xiàng)目地址轉(zhuǎn)移
項(xiàng)目已和WebCollector合并,當(dāng)前項(xiàng)目為老版本ContentExtractor,請(qǐng)前往WebCollector項(xiàng)目查看ContentExtractor的最新版本源碼和API。
教程(只適用于老版本,新版本請(qǐng)前往WebCollector)
ContentExtractor的接口非常簡(jiǎn)單,用戶可以根據(jù)網(wǎng)頁(yè)的url,或者網(wǎng)頁(yè)的html,來(lái)進(jìn)行網(wǎng)頁(yè)正文抽取:
根據(jù)url,抽取網(wǎng)頁(yè)的正文:
public?static?void?main(String[]?args)?throws?Exception?{
String?content=ContentExtractor.getContentByURL("http://news.
xinhuanet.com/world/2014-11/02/c_127166728.htm");
System.out.println(content);
}
根據(jù)html,抽取網(wǎng)頁(yè)的正文:
public?static?void?main(String[]?args)?throws?Exception?{
String?html="獲取到的html源碼";
String?content=ContentExtractor.getContentByHtml(html);
System.out.println(content);
}
導(dǎo)入項(xiàng)目(只適用于老版本,新版本請(qǐng)前往WebCollector)
從ContentExtractor的github主頁(yè)https://github.com/hfut-dmic/ContentExtractor上下載ContentExtractor-{版本號(hào)}-bin.zip,將解壓后得到的jar包全部放到工程的build path即可。
ContentExtractor由合肥工業(yè)大學(xué)dmic團(tuán)隊(duì)開(kāi)發(fā)
為你推薦:
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的java 网页正文抽取算法_网页正文抽取算法 ContentExtractor的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 分区助手扩大c盘后自动修复_磁盘分区工具
- 下一篇: 一级计算机B理论知识和答案,计算机一级B