當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP 中文形近字相似度算法开源实现

發(fā)布時間：2024/5/15 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP 中文形近字相似度算法开源实现小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

項目簡介

nlp-hanzi-similar 為漢字提供相似性的計算。

創(chuàng)作目的

有一個小伙伴說自己在做語言認知科學方向的課題研究，看了我以前寫的 NLP 中文形近字相似度計算思路

就想問下有沒有源碼或者相關(guān)資料。

國內(nèi)對于文本的相似度計算，開源的工具是比較豐富的。

但是對于兩個漢字之間的相似度計算，國內(nèi)基本一片空白。國內(nèi)的參考的資料少的可憐，國外相關(guān)文檔也是如此。

于是將以前寫的相似度算法整理開源，希望能幫到這位小伙伴。

本項目旨在拋磚引玉，實現(xiàn)一個基本的相似度計算工具，為漢字 NLP 貢獻一點綿薄之力。

特性

fluent 方法，一行代碼搞定一切
高度自定義，允許用戶定義自己的實現(xiàn)
詞庫自定義，適應(yīng)各種應(yīng)用場景
豐富的實現(xiàn)策略

默認實現(xiàn)了基于四角編碼+拼音+漢字結(jié)構(gòu)+漢字偏旁+筆畫數(shù) 的相似度比較。

變更日志

快速開始

需要

jdk1.7+

maven 3.x+

maven 引入

<dependency><groupId>com.github.houbb</groupId><artifactId>nlp-hanzi-similar</artifactId><version>1.0.0</version> </dependency>

快速開始

基本用法

HanziSimilarHelper.similar 獲取兩個漢字的相似度。

double rate1 = HanziSimilarHelper.similar('末', '未');

結(jié)果為：

0.9629629629629629

自定義權(quán)重

默認是根據(jù) 四角編碼+拼音+漢字結(jié)構(gòu)+漢字偏旁+筆畫數(shù) 進行相似度比較。

如果默認的系統(tǒng)權(quán)重無法滿足你的需求，你可以通過自定義權(quán)重調(diào)整：

double rate = HanziSimilarBs.newInstance().jiegouRate(10).sijiaoRate(8).bushouRate(6).bihuashuRate(2).pinyinRate(1).similar('末', '未');

自定義相似度

有些情況下，系統(tǒng)的計算是無法滿足的。

用戶可以在根目錄下 hanzi_similar_define.txt 進行自定義。

入人 0.9 人入 0.9

這樣在計算人和入的相似度時，會優(yōu)先以用戶自定義的為準。

double rate = HanziSimilarHelper.similar('人', '入');

此時的結(jié)果為用戶自定義的值。

引導(dǎo)類

說明

為了便于用戶自定義，HanziSimilarBs 支持用戶進行自定義配。

HanziSimilarBs 中允許自定義的配置列表如下：

序號屬性說明

1	bihuashuRate	筆畫數(shù)權(quán)重
2	bihuashuData	筆畫數(shù)數(shù)據(jù)
3	bihuashuSimilar	筆畫數(shù)相似度策略
4	jiegouRate	結(jié)構(gòu)權(quán)重
5	jiegouData	結(jié)構(gòu)數(shù)據(jù)
6	jiegouSimilar	結(jié)構(gòu)相似度策略
7	bushouRate	部首權(quán)重
8	bushouData	部首數(shù)據(jù)
9	bushouSimilar	部首相似度策略
10	sijiaoRate	四角編碼權(quán)重
12	sijiaoData	四角編碼數(shù)據(jù)
13	sijiaoSimilar	四角編碼相似度策略
14	pinyinRate	拼音權(quán)重
15	pinyinData	拼音數(shù)據(jù)
16	pinyinSimilar	拼音相似度策略
17	hanziSimilar	漢字相似度核心策略
18	userDefineData	用戶自定義數(shù)據(jù)

所有的配置都可以基于接口，用戶進行自定義。

快速體驗

說明

如果 java 語言不是你的主要開發(fā)語言，你可以通過下面的 exe 文件快速體驗一下。

下載地址

https://github.com/houbb/nlp-hanzi-similar/releases/download/exe/hanzi-similar.zip

下載后直接解壓得到 hanzi-similar.exe 免安裝的可執(zhí)行文件。

執(zhí)行效果

界面是使用 java swing 實現(xiàn)的，所以美觀什么的，已經(jīng)完全放棄治療 T_T。

使用 exe4j 打包。

字符一輸入一個漢字，字符二輸入另一個漢字，點擊計算，則可以獲取對應(yīng)的相似度。

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-Co86EgTm-1637587412203)(similar-execute.png)]

字典的弊端

這個項目開源，是因為有一位小伙伴有相關(guān)的需求，但是他不懂 java。

一開始想把項目設(shè)計成為字典的形式，兩個字對應(yīng)一個相似度。

但是有一個問題，2W 漢字，和 2W 漢字的相似度字典，數(shù)量已經(jīng)是近億的數(shù)據(jù)量。

空間復(fù)雜度過高，同時會導(dǎo)致時間復(fù)雜度問題。

所以目前采用的是實時計算，有時間做一下其他語言的遷移 😃

實現(xiàn)原理

實現(xiàn)思路

不同于文本相似度，漢字相似度的單位是漢字。

所以相似度是對于漢字的拆解，比如筆畫，拼音，部首，結(jié)構(gòu)等。

核心代碼

核心實現(xiàn)如下，就是各種相似度，進行加權(quán)計算。

/*** 相似度** @param context 上下文* @return 結(jié)果* @since 1.0.0*/ @Override public double similar(final IHanziSimilarContext context) {final String charOne = context.charOne();final String charTwo = context.charTwo();//1. 是否相同if(charOne.equals(charTwo)) {return 1.0;}//2. 是否用戶自定義Map<String, Double> defineMap = context.userDefineData().dataMap();String defineKey = charOne+charTwo;if(defineMap.containsKey(defineKey)) {return defineMap.get(defineKey);}//3. 通過權(quán)重計算獲取//3.1 四角編碼IHanziSimilar sijiaoSimilar = context.sijiaoSimilar();double sijiaoScore = sijiaoSimilar.similar(context);//3.2 結(jié)構(gòu)IHanziSimilar jiegouSimilar = context.jiegouSimilar();double jiegouScore = jiegouSimilar.similar(context);//3.3 部首IHanziSimilar bushouSimilar = context.bushouSimilar();double bushouScore = bushouSimilar.similar(context);//3.4 筆畫IHanziSimilar biahuashuSimilar = context.bihuashuSimilar();double bihuashuScore = biahuashuSimilar.similar(context);//3.5 拼音IHanziSimilar pinyinSimilar = context.pinyinSimilar();double pinyinScore = pinyinSimilar.similar(context);//4. 計算總分double totalScore = sijiaoScore + jiegouScore + bushouScore + bihuashuScore + pinyinScore;//4.1 避免浮點數(shù)比較問題if(totalScore <= 0) {return 0;}//4.2 正則化double limitScore = context.sijiaoRate() + context.jiegouRate()+ context.bushouRate() + context.bihuashuRate() + context.pinyinRate();return totalScore / limitScore; }

具體的細節(jié)，如果感興趣，可以自行閱讀源碼。

開源地址

為了便于大家的學習和使用，本項目已開源。

開源地址：

https://github.com/houbb/nlp-hanzi-similar

歡迎大家，fork&star 鼓勵一下老馬~

算法的優(yōu)缺點

優(yōu)點

為數(shù)不多的幾篇 paper 是從漢字的結(jié)構(gòu)入手的。

本算法引入了四角編碼+結(jié)構(gòu)+部首+筆畫+拼音的方式，使其更加符合國內(nèi)的使用直覺。

缺點

部首這部分因為當時數(shù)據(jù)問題，實際上是有缺憾的。

后續(xù)準備引入拆字字典，對漢字的所有組成部分進行對比，而不是目前一個簡單的部首。

后期 Road-MAP

豐富相似度策略
優(yōu)化默認權(quán)重
優(yōu)化 exe 界面

總結(jié)

以上是生活随笔為你收集整理的NLP 中文形近字相似度算法开源实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Partial-Function
下一篇：解决微软newbing chat的Sor

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

NLP 中文形近字相似度算法开源实现

項目簡介

創(chuàng)作目的

特性

變更日志

快速開始

需要

maven 引入

快速開始

基本用法

自定義權(quán)重

自定義相似度

引導(dǎo)類

說明

快速體驗

說明

下載地址

執(zhí)行效果

字典的弊端

實現(xiàn)原理

實現(xiàn)思路

核心代碼

開源地址

算法的優(yōu)缺點

優(yōu)點

缺點

后期 Road-MAP

總結(jié)