當前位置：首頁 >

k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错

發布時間：2024/9/19 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

拼寫糾錯功能

本文基于lucene6.1中的spellchcker編寫的使用示例，并介紹功能實現流程,實現類似以下百度中的糾錯

首先我們要有一份詞典數據，作為正確的詞，供lucene建立索引，詞典可參考file/dictionary.txt文件格式

1. INDEX_STORE_DIR倒排索引存儲路徑

Analyzer analyzer = new StandardAnalyzer();
IndexWriterConfig config = new IndexWriterConfig(analyzer); Directory directory = FSDirectory.open(Paths.get(INDEX_STORE_DIR));

final SpellChecker sp = new SpellChecker(directory, new NGramDistance()); BufferedReader reader = Files.newBufferedReader(Paths.get(DIC_STORE_DIR), Charset.forName("gbk")); sp.indexDictionary(new PlainTextDictionary(reader), config, true);

以Today為例，看一下lucene索引里存儲了怎樣的數據 ? ? ? ?至于n的取值，參考以下兩個方法，l為詞的長度 ? ?`` private static int getMin(int l) { if (l > 5) { return 3; } if (l == 5) { return 2; } return 1; }

private static int getMax(int l) {

if (l > 5) {

return 4;

}

if (l == 5) {

return 3;

}

return 2;

}

構造Document 首先Field f = new StringField(F_WORD, text, Field.Store.YES);會創建word字段，保存“Today”詞原值，用于查詢時返回 ? ?其次構建gram{getMin<=n<=getMax}字段，例如n=2時，構建的gram2字段存儲的值為To,od,da,ay，當然若是單詞開頭還會構建start2字段取值為To，單詞結尾還會構建end2字段取值ay ? ? ?單詞Today(2<=n<=3)索引中的存儲內容如下:

Filed | Values

--------------------------------------------

word | Today

start2 | To

3. 測試

以“Todey”為例介紹檢索過程 ? ?檢索時同樣會生成Todey的所有ngram片段，最終構造的query如下 (start2:To)^2.0 (end2:ey)^1.0 gram2:To gram2:od gram2:de gram2:ey (start3:Tod)^2.0 (end3:dey)^1.0 gram3:Tod gram3:ode gram3:dey ? ? ? ?召回所有結果后，會計算召回的單詞與Todey的ngram-distance，若大于等于DEFAULT_ACCURACY = 0.5f精度才進行返回，精度可以通過suggestSimilar(String word, int numSug, float accuracy)方法傳入自定義的取值

最終返回結果:Today，Tomorrow

總結

以上是生活随笔為你收集整理的k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java自动关闭吗_JAVA问题－－浏览
下一篇： java testng 优化_java+

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错

總結