日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > asp.net >内容正文

asp.net

DotLucene源码浅读笔记(1) : Lucene.Net.Analysis

發布時間:2024/4/15 asp.net 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 DotLucene源码浅读笔记(1) : Lucene.Net.Analysis 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本系列筆記將以DotLucene的命名空間組織行文,閱讀的DotLucene版本是1.9.RC1,并且以更好的使用而非研究為目的閱讀。也就是說要避難就易拉。

0, DotLucene主要命名空間概覽:

命名空間

功能說明

Lucene.Net.Analysis

語言分析器,主要用于切詞,支持中文主要是擴展此類

Lucene.Net.Documents

索引存儲時的文檔結構管理,類似關系型數據庫的表結構

Lucene.Net.Index

索引管理,包括索引建立、刪除等

Lucene.Net.QueryParsers

查詢分析器,實現查詢關鍵詞間的運算,如與、或、非等

Lucene.Net.Search

檢索管理,根據查詢條件,檢索得到結果

Lucene.Net.Store

數據存儲管理,主要包括一些底層的I/O操作

Lucene.Net.Util

一些公用類

?

1), Lucene.Net.Analysis命名空間分析。

Lucene.Net.Analysis下,類的關系,可以看成有三個繼承體系:

詞法分析器(Analyzer) :詞法過濾和分析的類,實際上是對分詞器, 過濾器的綜合包裝類。

分詞器(Tokenizer):對文本進行分詞,可能是單字,詞,二元切分等等。

過濾器(TokenFilter):對由分詞器分詞后的Token進行過濾,比如無意詞(a ,是,的等等)或者其他的指定的需要過濾的詞

下面看看每一個繼承體系都有那些相關類:

?

詞法分析器(Analyzer)的相關類類關系圖:

?

分詞器(Tokenizer) 的相關類類關系圖:

過濾器(TokenFilter) 的相關類類關系圖:


上面的三個類關系體系里涉及到的主要類(概念)的簡單說明:

類名

功能說明

Analyzer

分析器基類,詞法過濾和分析的類,即把文本分解成TokenStream,即Token的序列。Analyzer只是做包裝,主要還是Tokenizer在起作用

StopAnalyzer

Analyzer擴展類之一,SimpleAnalyzer功能基礎上加上過濾詞功能

StandardAnalyzer

Analyzer擴展類之一,也是最常用的分析器,支持中文,日文等,單字切分。

SimpleAnalyzer

Analyzer擴展類之一,將除去字符之外的符號全部過濾掉,并且將所有的字符小寫(大寫)化

Token

DotLucene最基本的單位,以單字切分則每個單字為一個Token,如果以中文分詞來切分則每個詞為一個Token

TokenStream

Token的序列

Tokenizer

繼承于TokenStream,用于分詞。一般擴展的自定義的分詞都應該繼承這個類

?

?

StandardTokenizer

Tokenizer擴展類之一,也是最常用的,支持中文,基于單字切分

TokenFilter

繼承于TokenStream的子類,用于過濾。一般拓展的自定義的過濾類都應該繼承該類

StandardFilter

TokenFilter拓展類之一,過濾英文字符的復數和dot(.)號.

LowerCaseFilter

對所有英文小寫化

StopFilter

過濾掉指定的過濾詞

?

在所有上面這個類之中,我們經常用的也是所有Analyzer中最復雜的就是StandardAnalyzer(本身不復雜,其調用的分詞器復雜),下面對這個類做一個簡單的分析:
StandardAnalyzer最核心,最主要的方法:

???????? public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)

???????? {

????????????? TokenStream result = new StandardTokenizer(reader);

????????????? result = new StandardFilter(result);

????????????? result = new LowerCaseFilter(result);

????????????? result = new StopFilter(result, stopSet);

????????????? return result;

???????? }

就是調用StandardTokenizer分詞器對文本分詞。然后調用三個過濾器(作用表格有寫),其中的StandardTokenizer類及相關的類比較復雜,目前還沒有完全理解。所以下面的文字是需要用批判眼光來閱讀的。說白了,我是一邊猜,一邊看源碼。以求的最準確的理解。

先做個簡單的測試,通過結果來分析:

string sTemp = "我們是中國人,We are chinese";

??? ????????Analyzer analyzer = new StandardAnalyzer() ;

??????????? StringReader sr = new StringReader(sTemp);

??????????? TokenStream ts = analyzer.TokenStream(sr);

??????????? Lucene.Net.Analysis.Token token = null;

??????????? while ((token = ts.Next()) != null)

??????????? {

??????????????? this.txtResult.Text += token.ToString();

??????????? }

txtResult是Winform的TextBox,輸出結果如下:

(,0,1,type=<CJ>)(,1,2,type=<CJ>)(,2,3,type=<CJ>)(,3,4,type=<CJ>)(,4,5,type=<CJ>)(,5,6,type=<CJ>)(we,7,9,type=<ALPHANUM>)(chinese,14,21,type=<ALPHANUM>)

?

(,0,1,type=<CJ>)來分析,因為是單字切分,所以分解成了一個一個的字。其中0,1表示這個字在文本中StartOffset,EndOffset,最后的type表示文字的類型是英文,數字,還是是中文等等。在rc1.9中支持的type可以在Lucene.Net.Analysis.Standard下的StandardTokenizerConstants類看到。而CJ代表的是中文和日文的集合。不僅僅代表中文哦。

分析到這里,我有一個疑問。DotLucene是怎么區別不同的文字的呢?那就是根據unicode編碼的范圍區別不同的文字。不過這句話,是我猜出來,但我始終沒能在DotLucene源碼中找到能支持我這句話的原代碼。所以猜測始終還是猜測。鑒于本次閱讀DotLucene的目的是為了更好的使用,而非研究,所以對Lucene.Net.Analysis命名空間的分析只能就此打住。

?

后記:

據我所知,現在已經有很多種第三方的Analyzer。SourceForce上的有一個ChineseAnalyzer,基于二元分詞算法實現中文分詞。還有基于詞庫實現中文分詞的Analyzer,一般認為。使用針對中文優化過的Analyzer可以提高搜索準確度,但是對于大多數的搜索應用,StandardAnalyzer 絕對夠用,好用。為什么呢?打個比方,拿國際經濟四個字來說,如果是StandardAnalyzer的話,無論搜索 國際,經濟,還是國際經濟都能搜索到。但是如果用中文分詞,那就難說。那就看你的中文分詞怎么分 國際經濟(二元分詞算法的Analyzer不需要考慮這個問題)。我在給CS做的搜索系統,也是用StandardAnalyzer,絕對不用其他的Analyzer。以上純屬個人拙見。

總結

以上是生活随笔為你收集整理的DotLucene源码浅读笔记(1) : Lucene.Net.Analysis的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。