日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错

發(fā)布時(shí)間:2024/9/19 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

拼寫(xiě)糾錯(cuò)功能

本文基于lucene6.1中的spellchcker編寫(xiě)的使用示例,并介紹功能實(shí)現(xiàn)流程,實(shí)現(xiàn)類(lèi)似以下百度中的糾錯(cuò)

首先我們要有一份詞典數(shù)據(jù),作為正確的詞,供lucene建立索引,詞典可參考file/dictionary.txt文件格式

1. INDEX_STORE_DIR倒排索引存儲(chǔ)路徑

Analyzer analyzer = new StandardAnalyzer();
IndexWriterConfig config = new IndexWriterConfig(analyzer); Directory directory = FSDirectory.open(Paths.get(INDEX_STORE_DIR));

final SpellChecker sp = new SpellChecker(directory, new NGramDistance()); BufferedReader reader = Files.newBufferedReader(Paths.get(DIC_STORE_DIR), Charset.forName("gbk")); sp.indexDictionary(new PlainTextDictionary(reader), config, true);

以Today為例,看一下lucene索引里存儲(chǔ)了怎樣的數(shù)據(jù) ? ? ? ?至于n的取值,參考以下兩個(gè)方法,l為詞的長(zhǎng)度 ? ?`` private static int getMin(int l) { if (l > 5) { return 3; } if (l == 5) { return 2; } return 1; }

private static int getMax(int l) {

if (l > 5) {

return 4;

}

if (l == 5) {

return 3;

}

return 2;

}

``

構(gòu)造Document 首先Field f = new StringField(F_WORD, text, Field.Store.YES);會(huì)創(chuàng)建word字段,保存“Today”詞原值,用于查詢(xún)時(shí)返回 ? ?其次構(gòu)建gram{getMin<=n<=getMax}字段,例如n=2時(shí),構(gòu)建的gram2字段存儲(chǔ)的值為T(mén)o,od,da,ay,當(dāng)然若是單詞開(kāi)頭還會(huì)構(gòu)建start2字段取值為T(mén)o,單詞結(jié)尾還會(huì)構(gòu)建end2字段取值ay ? ? ?單詞Today(2<=n<=3)索引中的存儲(chǔ)內(nèi)容如下:

Filed | Values

--------------------------------------------

word | Today

start2 | To

ngram2 | To,od,da,ay end2 | ay start3 | Tod ngram3 | Tod,oda,day end3 | day

3. 測(cè)試

以“Todey”為例介紹檢索過(guò)程 ? ?檢索時(shí)同樣會(huì)生成Todey的所有ngram片段,最終構(gòu)造的query如下 (start2:To)^2.0 (end2:ey)^1.0 gram2:To gram2:od gram2:de gram2:ey (start3:Tod)^2.0 (end3:dey)^1.0 gram3:Tod gram3:ode gram3:dey ? ? ? ?召回所有結(jié)果后,會(huì)計(jì)算召回的單詞與Todey的ngram-distance,若大于等于DEFAULT_ACCURACY = 0.5f精度才進(jìn)行返回,精度可以通過(guò)suggestSimilar(String word, int numSug, float accuracy)方法傳入自定義的取值

最終返回結(jié)果:Today,Tomorrow

總結(jié)

以上是生活随笔為你收集整理的k-gram 拼写校正 java_拼写纠错-基于lucene-ngram实现拼写纠错的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。