日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词之正向最大匹配算法

發布時間:2024/9/20 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 中文分词之正向最大匹配算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

中文分詞目前可以分為“規則分詞”,“統計分詞”,“混合分詞(規則+統計)”這三個主要流派。這次介紹下基于規則的分詞,其是一種機械的分詞方法,主要通過維護詞典,在切分語句時,將語句的每個字符串與詞表中的詞逐一進行匹配,找到則切分,否則不予切分。

正向最大匹配算法:這里需要知道兩點,一個是分詞詞典(也即是已經分詞過的詞典),另一個是需要被分詞的文檔。假定分詞詞典中的最長詞有ii個漢子字符串,則用被處理文檔的當前字符串中的前ii個字作為匹配字段,查找字典。若此時分詞詞典中存在這樣一個字符串,則匹配成功,而此時被匹配的字段切分出來。如果匹配失敗,將匹配字段中的最后一個字去掉,對此時剩下的字串重新與分詞詞典進行匹配,如此下去直到匹配成功。也即是切分出一個詞或剩余字串的長度為零為止,這個時候才是匹配了一輪,接著進行下一個ii<script type="math/tex" id="MathJax-Element-3">i</script>字字串的匹配,方法同上,直到文檔被掃描完為止。

正向最大匹配算法的原理比較簡單,也沒有用到機器學習和概率論,統計的一些知識,下面貼出代碼:

# 定義逆向最大匹配類 class IMM(object):# 初始化得到給定的字典中的所有詞和長度最大的詞def __init__(self, dic_path):self.dictionary = set()self.maximum = 0#讀取詞典with open(dic_path, 'r', encoding='utf8') as f:for line in f:# strip():只能刪除開頭或是結尾的字符,不能刪除中間部分的字符line = line.strip()print('line:',line)if not line:continueself.dictionary.add(line)if len(line)>=self.maximum:self.maximum = len(line)print('self.dictionary:',self.dictionary,'\n','self.maximum:',self.maximum) # 該方法可切分新得到的詞組 def cut(self, text):result = []index = len(text)print('index:',index)while index > 0:word = Nonefor size in range(self.maximum, 0, -1):if index - size < 0:continueprint('index - size=>',index - size,':',index)piece = text[(index - size):index]print('piece:',piece)# 判斷該詞是否在詞典中if piece in self.dictionary:word = pieceresult.append(word)index -= sizebreakif word is None:index -= 1return result[::-1]def main():text = "南京市長江大橋"# 詞典的地址tokenizer = IMM(r'./imm_dic.utf8')print(tokenizer.cut(text))main()

運行結果:

line: 南京市 line: 南京市長 line: 長江大橋 line: 人名解放軍 line: 大橋 self.dictionary: {'人名解放軍', '長江大橋', '大橋', '南京市長', '南京市'} self.maximum: 5 index: 7 index - size=> 2 : 7 piece: 市長江大橋 index - size=> 3 : 7 piece: 長江大橋 index - size=> 0 : 3 piece: 南京市 ['南京市', '長江大橋']

而且這里的分詞詞典是自己定義好的,作為簡單的demo學習一下。

參考:《pytho自然語言處理實戰 核心技術與算法》

總結

以上是生活随笔為你收集整理的中文分词之正向最大匹配算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 岛国裸体写真hd在线 | 亚洲乱色熟女一区二区三区 | 爱看av| 97在线看| 日韩精品无码一本二本三本色 | av片观看 | 欧美激情999| 欧美不卡 | 麻豆av一区二区 | 蜜臀av午夜精品 | 日韩av在线播放网址 | 奇米99| 欧美女同视频 | 伊人影院在线播放 | 中文字幕在线日韩 | 丁香婷婷久久 | 一级做a爱 | 九色91丨porny丨丝袜 | 欧美精品导航 | 国产做爰xxxⅹ久久久精华液 | 国产综合网站 | av在线二区 | 色网导航站 | 欧美精品一区二区三区视频 | 青青草免费在线视频 | 蜜桃久久久 | 国产亚洲欧美一区二区三区 | 免费大黄网站 | 精品国产乱码久久久久久闺蜜 | 182在线视频 | 性做爰视频免费播放大全 | 日本欧美国产在线 | 99蜜桃臀久久久欧美精品网站 | 欧美一级做性受免费大片免费 | 国产熟妇一区二区三区aⅴ网站 | 久久潮 | 日韩视频在线观看免费视频 | 露脸丨91丨九色露脸 | 一级特黄毛片 | 国产性生活片 | 麻豆久久久久久久 | 国产一级黄色录像 | 国产成人一区 | 色啦啦视频 | 色综合色综合 | 日本性高潮视频 | 成人久久国产 | 成人一级免费视频 | 国产亚洲午夜 | 成人免费毛片aaaaaa片 | 欧美日韩一区二区视频在线观看 | 亚洲欧美日韩综合 | 欧美少妇激情 | 亚洲在线观看一区二区 | 日韩欧美三级在线 | 亚洲福利天堂 | 丰满少妇一区二区三区专区 | 无码一区二区三区在线 | 狠狠操狠狠操狠狠操 | 一集毛片| 日韩在线精品强乱中文字幕 | 日本黄色三级网站 | 成人做受黄大片 | www.国产一区二区三区 | 一个人在线观看www www.97色 | 蜜臀久久99精品久久久无需会员 | 天堂无乱码 | 日本福利一区 | www.欧美在线| 国产最新地址 | 久热这里只有精品在线 | 中文久久乱码一区二区 | 麻豆成人免费视频 | 国产精品成人一区二区网站软件 | 羞视频在线观看 | 小萝莉末成年一区二区 | 欧美区国产区 | 亚洲第一天堂 | 婷婷一级片| 五月婷婷综合激情网 | 国产又粗又猛又爽又黄av | 色一情一区二 | 97人人人| av最新天| 尤物在线视频观看 | 色一情一交一乱一区二区三区 | 爱情岛论坛av | 国产在线观看第一页 | 亚洲国产欧美视频 | 欧美激情电影一区二区 | 国产图片一区 | 日韩有码视频在线 | 久久丫精品久久丫 | 国产又黄又猛又粗又爽 | 黄色应用在线观看 | 四虎在线观看视频 | 欧美韩日 | 国产成人精品亚洲男人的天堂 | 视色视频在线观看 |