日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网站分类前导:获取网站标题和描述及对相关信息进行分词处理

發布時間:2025/3/20 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网站分类前导:获取网站标题和描述及对相关信息进行分词处理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言:

? 之前,筆者做過一些關于網絡爬蟲的東西。而且爬取的效果還可以。不過還有一些爬蟲的博客沒有完成,在后期會將其更新完成。而之前的爬蟲只是對網頁中的URL進行提取,我想做的效果是能對這些網頁進行分類。而分類的前提是我們能夠依據一些可信文本,對這些文本進行分詞,再通過這些分出來的詞再進行分類(如:貝葉斯分類器)。

? 而本文就是對網頁分類的前導學習——中文分詞學習。


關于文章:

? 本文鏈接:http://blog.csdn.net/lemon_tree12138/article/details/48463215?-?編程小笙

?轉載請注明出處


獲取網站標題和描述文本:

? 寫過Java網絡的人都應該知道這里要如何獲得網站的標題和描述情況。

? 我們可以打開一個網頁,然后在網頁上右鍵查看源碼。在源碼的上方會有類似這樣的一些信息,如下圖:

??

? 1.標題

? 2.網頁描述

? 通過上面的截圖我們可以知道這里兩個信息的Tag和attr。具體的Java實現如下:

public class GetTitleDesc {private void parser() throws IOException {Document doc = Jsoup.connect("http://mail.163.com/").header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0").get();System.out.println(doc.title());Elements metaElements = doc.getElementsByAttributeValue("name", "description");for (Element element : metaElements) {System.out.println(element.attr("content"));}}public static void main(String[] args) {GetTitleDesc get = new GetTitleDesc();try {get.parser();} catch (IOException e) {e.printStackTrace();}} }


對標題和描述進行分詞:

1.Lucene分詞:

? 1.說明:

? 對于英文的分詞是一個比較方便的操作,因為英文是以空格為分隔符。而在中文中,我們不能單純地以某一個字來分隔一段字符。這樣我們可能會得到一些莫名其妙的結果。

? 關于分詞的代碼,主要參考:http://blog.sina.com.cn/s/blog_b8f01fb90101gxyb.html

? 不過還好,我們有lucene這個包。對于中文分詞,我們具體需要導入以下工具包:

??


? 2.代碼實現:

? 這里我們就以之前在163郵箱上的描述來作為輸入文本:

??網易163免費郵箱--中文郵箱第一品牌。容量自動翻倍,支持50兆附件,免費開通手機號碼郵箱贈送3G超大附件服務。支持各種客戶端軟件收發,垃圾郵件攔截率超過98%。

public class TestJeAnalyzer {private static final String LABEL = "網易163免費郵箱--中文郵箱第一品牌。容量自動翻倍,支持50兆附件,免費開通手機號碼郵箱贈送3G超大附件服務。支持各種客戶端軟件收發,垃圾郵件攔截率超過98%。";public static void testStandard(String testString) throws Exception {Analyzer analyzer = new StandardAnalyzer();Reader r = new StringReader(testString);StopFilter sf = (StopFilter) analyzer.tokenStream("", r);Token t;while ((t = sf.next()) != null) {System.out.println(t.termText());}}public static void testCJK(String testString) throws Exception {Analyzer analyzer = new CJKAnalyzer();Reader r = new StringReader(testString);StopFilter sf = (StopFilter) analyzer.tokenStream("", r);Token t;while ((t = sf.next()) != null) {System.out.println(t.termText());}}public static void testChiniese(String testString) throws Exception {Analyzer analyzer = new ChineseAnalyzer();Reader r = new StringReader(testString);TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);Token t;while ((t = tf.next()) != null) {System.out.println(t.termText());}}public static void testJe(String testString) throws Exception {Analyzer analyzer = new IK_CAnalyzer();Reader r = new StringReader(testString);TokenStream ts = (TokenStream) analyzer.tokenStream("", r);Token t;while ((t = ts.next()) != null) {System.out.println(t.termText());}}public static void main(String[] args) throws Exception {String testString = LABEL;System.out.println("原始文本:" + testString);Utils.sleep(10);System.err.println("=====standard analyzer====");System.err.println("分析方法:默認沒有詞只有字");testStandard(testString);Utils.sleep(10);System.err.println("=====cjk analyzer====");System.err.println("分析方法:交叉雙字分割");testCJK(testString);Utils.sleep(10);System.err.println("=====chinese analyzer====");System.err.println("分析方法:基本等同StandardAnalyzer");testChiniese(testString);Utils.sleep(10);System.err.println("=====je analyzer====");System.err.println("分析方法:字典分詞,正反雙向搜索,具體不明");testJe(testString);} } ?

? 3.分詞結果(部分):

??


2.MMAnalyzer分詞:

? 1.代碼部分:

public class Segment1 {public static void main(String[] args) {String LABEL = "網易163免費郵箱--中文郵箱第一品牌。容量自動翻倍,支持50兆附件,免費開通手機號碼郵箱贈送3G超大附件服務。支持各種客戶端軟件收發,垃圾郵件攔截率超過98%。";MMAnalyzer analyzer = new MMAnalyzer();try {System.out.println(analyzer.segment(LABEL, " | "));} catch (IOException e) {e.printStackTrace();}} }

? 2.效果展示:

網易 | 163 | 免費郵箱 | 中文 | 郵箱 | 第一 | 品牌 | 容量 | 自動 | 翻倍 | 支持 | 50兆 | 附件 | 免費 | 開通 | 手機 | 號碼 | 郵箱 | 贈送 | 3g | 超大 | 附件 | 服務 | 支持 | 各種 | 客戶端 | 軟件 | 收發 | 垃圾郵件 | 攔截 | 率 | 超過 | 98% |
? 根據上面兩種分詞方面,可能你已經感覺到第二會更準確一些。


相關源碼下載:

http://download.csdn.net/detail/u013761665/9107117

總結

以上是生活随笔為你收集整理的网站分类前导:获取网站标题和描述及对相关信息进行分词处理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 毛片无遮挡高清免费观看 | 天堂va蜜桃一区 | 国产精品美女久久久网av | 久久在现 | 精品人妻少妇一区二区三区 | 免费看成人aa片无码视频羞羞网 | 雷电将军和丘丘人繁衍后代视频 | 黄色性生活一级片 | 闫嫩的18sex少妇hd | 亚洲黄色精品视频 | 免费处女在线破视频 | 精品久久久国产 | 国产日韩三级 | ,亚洲人成毛片在线播放 | 亚洲交性网 | 精品久久久久久久久久岛国gif | 中文字幕一区二区人妻视频 | 伊人99热| 久久com | 综合天天色 | h片在线免费看 | 国产av国片偷人妻麻豆 | 国产高清在线免费 | 懂色av蜜臀av粉嫩av分享吧最新章节 | 免费看黄色的视频 | 色视频导航 | 91视频免费观看 | 久久久久久97 | 精品国产一区二区三区噜噜噜 | 黄色岛国片 | 免费视频一二三区 | 懂色av蜜臂av粉嫩av | 青青操免费| 在线观看波多野结衣 | 又色又爽又黄无遮挡的免费视频 | 高清久久久久久 | av资源站最新av | www.黄色片 | 禁断介护老人中文字幕 | 免费大片黄在线观看 | 精品人妻天天爽夜夜爽视频 | 女人扒开双腿让男人捅 | 久久一区二区三区四区五区 | 国产女同在线观看 | 夜夜撸 | 人人看超碰 | 在线观看亚洲免费视频 | 国产人妻精品午夜福利免费 | 中国成人av| 久久亚洲综合国产精品99麻豆精品福利 | 99热这里有精品 | 国产精品成人一区 | 国产97色| 亚洲视频99 | 99热这| 国产视频一区二区不卡 | 亚洲欧美在线成人 | 久久久久久中文字幕 | 国产免费av一区二区 | 成人在线免费视频 | 亚洲色图21p | 日韩美女做爰高潮免费 | 男女裸体无遮挡做爰 | 免费看成人aa片无码视频羞羞网 | wwwxxx色| 国产精品第7页 | 久久成人免费视频 | 亚洲日本精品一区 | 中文字幕在线观看二区 | 欧美久久久久久久久久久久久久 | 日本少妇b | 少妇高潮av久久久久久 | 日韩欧美精品一区二区三区 | 亚洲人免费视频 | 午夜免费精品 | 一区二区三区四区免费 | 操操操视频 | 日本韩国欧美在线 | 少妇脚交调教玩男人的视频 | 在线黄色免费网站 | 台湾a级艳片潘金莲 | 欧美另类videossexo高潮 | 麻豆一区二区在线观看 | 999超碰 | 色图视频 | 日本在线www | 性欧美xxxx| 国产露出视频 | 国产视频福利 | 亚洲区综合 | 开心激情av | 欧美xxxx吸乳 | 精品爆乳一区二区三区 | 亚洲a级精品 | 国产3级 | 草久久| 国产精品毛片久久久久久久 | 理想之城连续剧40集免费播放 | 亚洲区免费|