日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python分词代码_中文分词--最大正向匹配算法python实现

發布時間:2024/9/27 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python分词代码_中文分词--最大正向匹配算法python实现 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最大匹配法:最大匹配是指以詞典為依據,取詞典中最長單詞為第一個次取字數量的掃描串,在詞典中進行掃描(為提升掃描效率,還可以跟據字數多少設計多個字典,然后根據字數分別從不同字典中進行掃描)。例如:詞典中最長詞為“中華人民共和國”共7個漢字,則最大匹配起始字數為7個漢字。然后逐字遞減,在對應的詞典中進行查找。

下面以“我們在野生動物園玩”為例詳細說明一下正向與逆向最大匹配方法:

1、正向最大匹配法:

正向即從前往后取詞,從7->1,每次減一個字,直到詞典命中或剩下1個單字。

第1次:“我們在野生動物”,掃描7字詞典,無

第2次:“我們在野生動”,掃描6字詞典,無

。。。。

第6次:“我們”,掃描2字詞典,有

掃描中止,輸出第1個詞為“我們”,去除第1個詞后開始第2輪掃描,即:

第2輪掃描:

第1次:“在野生動物園玩”,掃描7字詞典,無

第2次:“在野生動物園”,掃描6字詞典,無

。。。。

第6次:“在野”,掃描2字詞典,有

掃描中止,輸出第2個詞為“在野”,去除第2個詞后開始第3輪掃描,即:

第3輪掃描:

第1次:“生動物園玩”,掃描5字詞典,無

第2次:“生動物園”,掃描4字詞典,無

第3次:“生動物”,掃描3字詞典,無

第4次:“生動”,掃描2字詞典,有

掃描中止,輸出第3個詞為“生動”,第4輪掃描,即:

第4輪掃描:

第1次:“物園玩”,掃描3字詞典,無

第2次:“物園”,掃描2字詞典,無

第3次:“物”,掃描1字詞典,無

掃描中止,輸出第4個詞為“物”,非字典詞數加1,開始第5輪掃描,即:

第5輪掃描:

第1次:“園玩”,掃描2字詞典,無

第2次:“園”,掃描1字詞典,有

掃描中止,輸出第5個詞為“園”,單字字典詞數加1,開始第6輪掃描,即:

第6輪掃描:

第1次:“玩”,掃描1字字典詞,有

掃描中止,輸出第6個詞為“玩”,單字字典詞數加1,整體掃描結束。

正向最大匹配法,最終切分結果為:“我們/在野/生動/物/園/玩”

2、python代碼實現

1 #-*- coding: utf-8 -*-

2 """

3 Created on Thu Jul 19 08:57:56 20184

5 @author: Lenovo6 """

7

8 test_file = ‘train/train.txt‘#訓練語料

9 test_file2 = ‘test/test.txt‘#測試語料

10 test_file3 = ‘test_sc/test_sc_zhengxiang.txt‘#生成結果

11

12 def get_dic(test_file): #讀取文本返回列表

13 with open(test_file,‘r‘,encoding=‘utf-8‘,) as f:14 try:15 file_content =f.read().split()16 finally:17 f.close()18 chars =list(set(file_content))19 returnchars20

21 dic =get_dic(test_file)22 defreadfile(test_file2):23 max_length = 5

24

25 h = open(test_file3,‘w‘,encoding=‘utf-8‘,)26 with open(test_file2,‘r‘,encoding=‘utf-8‘,) as f:27 lines =f.readlines()28

29 for line in lines:#分別對每行進行正向最大匹配處理

30 max_length = 5

31 my_list =[]32 len_hang =len(line)33 while len_hang>0 :34 tryWord =line[0:max_length]35 while tryWord not indic:36 if len(tryWord)==1:37 break

38 tryWord=tryWord[0:len(tryWord)-1]39 my_list.append(tryWord)40 line =line[len(tryWord):]41 len_hang =len(line)42

43 for t in my_list:#將分詞結果寫入生成文件

44 if t == ‘\n‘:45 h.write(‘\n‘)46 else:47 h.write(t + " ")48

49 h.close()50

51 readfile(test_file2)

3、訓練語料和測試語料見附件。

總結

以上是生活随笔為你收集整理的python分词代码_中文分词--最大正向匹配算法python实现的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。