當前位置：首頁 > 编程语言 > python >内容正文

python

实现一个正则表达式引擎in Python(三)

發(fā)布時間：2023/12/20 python 47 豆豆

生活随笔收集整理的這篇文章主要介紹了实现一个正则表达式引擎in Python(三) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

項目地址：Regex in Python

前兩篇已經(jīng)完成的寫了一個基于NFA的正則表達式引擎了，下面要做的就是更近一步，把NFA轉換為DFA，并對DFA最小化

DFA的定義

對于NFA轉換為DFA的算法，主要就是將NFA中可以狀態(tài)節(jié)點進行合并，進而讓狀態(tài)節(jié)點對于一個輸入字符都有唯一的一個跳轉節(jié)點

所以對于DFA的節(jié)點就含有一個nfa狀態(tài)節(jié)點的集合和一個唯一的標識和對是否是接收狀態(tài)的flag

class Dfa(object):STATUS_NUM = 0def __init__(self):self.nfa_sets = []self.accepted = Falseself.status_num = -1@classmethoddef nfas_to_dfa(cls, nfas):dfa = cls()for n in nfas:dfa.nfa_sets.append(n)if n.next_1 is None and n.next_2 is None:dfa.accepted = Truedfa.status_num = Dfa.STATUS_NUMDfa.STATUS_NUM = Dfa.STATUS_NUM + 1return dfa

NFA轉換為DFA

將NFA轉換為DFA的最終目標是獲得一張?zhí)D表，這個和之前C語言編譯的語法分析表有點像

這個函數(shù)就是NFA轉換為DFA的全部算法了，主要邏輯就是：

先利用之前的closure算法，計算出可以合并的NFA節(jié)點，然后生成一個DFA的節(jié)點
然后對這個DFA集合進行遍歷
之后對于每個輸入字符進行move操作，然后對得到的move集合再進行一次closure操作，這樣就可以得到下一個DFA狀態(tài)節(jié)點（這里還要進行一個判重的操作，就是可能當前DFA狀態(tài)節(jié)點可能已經(jīng)生成過了）
然后將這兩個節(jié)點的對應關系放入跳轉表中
這時候的DFA如果其中含有的NFA存在一個可接收的狀態(tài)節(jié)點，那么當前的DFA的當然也是可接受狀態(tài)了

def convert_to_dfa(nfa_start_node):jump_table = list_dict(MAX_DFA_STATUS_NUM)ns = [nfa_start_node]n_closure = closure(ns)dfa = Dfa.nfas_to_dfa(n_closure)dfa_list.append(dfa)dfa_index = 0while dfa_index < len(dfa_list):dfa = dfa_list[dfa_index]for i in range(ASCII_COUNT):c = chr(i)nfa_move = move(dfa.nfa_sets, c)if nfa_move is not None:nfa_closure = closure(nfa_move)if nfa_closure is None:continuenew_dfa = convert_completed(dfa_list, nfa_closure)if new_dfa is None:new_dfa = Dfa.nfas_to_dfa(nfa_closure)dfa_list.append(new_dfa)next_state = new_dfa.status_numjump_table[dfa.status_num][c] = next_stateif new_dfa.accepted:jump_table[new_dfa.status_num]['accepted'] = Truedfa_index = dfa_index + 1return jump_table

DFA最小化

DFA最小化本質上是也是對狀態(tài)節(jié)點的合并，然后分區(qū)

先根據(jù)是否為接收狀態(tài)進行分區(qū)

再根據(jù)DFA跳轉表的跳轉關系對分區(qū)里的節(jié)點進行再次分區(qū)，如果當前DFA節(jié)點跳轉后的狀態(tài)節(jié)點也位于同一個分區(qū)中，證明它們可以被歸為一個分區(qū)

重復上面的算法

Dfa分區(qū)定義

DfaGroup和之前的定義大同小異，都是有一個唯一的標識和一個放DFA狀態(tài)節(jié)點的list

class DfaGroup(object):GROUP_COUNT = 0def __init__(self):self.set_count()self.group = []def set_count(self):self.group_num = DfaGroup.GROUP_COUNTDfaGroup.GROUP_COUNT = DfaGroup.GROUP_COUNT + 1def remove(self, element):self.group.remove(element)def add(self, element):self.group.append(element)def get(self, count):if count > len(self.group) - 1:return Nonereturn self.group[count]def __len__(self):return len(self.group)

Minimize DFA

partition是最小化DFA算法最重要的部分

會先從跳轉表中找出當前DFA對應跳轉的下一個狀態(tài)節(jié)點
first是用來比較的DFA節(jié)點
如果next節(jié)點的下一個狀態(tài)和first節(jié)點的下一狀態(tài)不在同一分區(qū)下的話，說明它們不可以在同一個分區(qū)
就重新創(chuàng)建一個新分區(qū)

所以其實DFA最小化做的就是合并相同的下一個跳轉狀態(tài)的節(jié)點

def partition(jump_table, group, first, next, ch):goto_first = jump_table[first.status_num].get(ch)goto_next = jump_table[next.status_num].get(ch)if dfa_in_group(goto_first) != dfa_in_group(goto_next):new_group = DfaGroup()group_list.append(new_group)group.remove(next)new_group.add(next)return Truereturn False

創(chuàng)建跳轉表

再分完區(qū)之后節(jié)點和節(jié)點間的跳轉就變成了區(qū)和區(qū)間的跳轉了

遍歷DFA集合
從之前的跳轉表中找到相應的節(jié)點和相應的跳轉關系
然后找出它們對應的分區(qū)，即轉換為分區(qū)和分區(qū)之間的跳轉

def create_mindfa_table(jump_table):trans_table = list_dict(ASCII_COUNT)for dfa in dfa_list:from_dfa = dfa.status_numfor i in range(ASCII_COUNT):ch = chr(i)to_dfa = jump_table[from_dfa].get(ch)if to_dfa:from_group = dfa_in_group(from_dfa)to_group = dfa_in_group(to_dfa)trans_table[from_group.group_num][ch] = to_group.group_numif dfa.accepted:from_group = dfa_in_group(from_dfa)trans_table[from_group.group_num]['accepted'] = Truereturn trans_table

匹配輸入字符串

利用跳轉表進行對輸入字符串的匹配的邏輯非常簡單

遍歷輸入的字符串
拿到當前狀態(tài)對應的輸入的跳轉關系
進行跳轉或者完成匹配

def dfa_match(input_string, jump_table, minimize=True):if minimize:cur_status = dfa_in_group(0).group_numelse:cur_status = 0 for i, c in enumerate(input_string):jump_dict = jump_table[cur_status]if jump_dict:js = jump_dict.get(c)if js is None:return Falseelse:cur_status = jsif i == len(input_string) - 1 and jump_dict.get('accepted'):return Truereturn jump_table[cur_status].get('accepted') is not None

總結

到此已經(jīng)完成了一個簡單的正則表達式引擎的所有過程

正則表達式 -> NFA -> DFA -> DFA最小化 -> 進行匹配

轉載于:https://www.cnblogs.com/secoding/p/11582310.html

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結

以上是生活随笔為你收集整理的实现一个正则表达式引擎in Python(三)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：实现一个正则表达式引擎in Python
下一篇： Python基础入门笔记（二）