实现一个正则表达式引擎in Python(三)
項目地址:Regex in Python
前兩篇已經(jīng)完成的寫了一個基于NFA的正則表達式引擎了,下面要做的就是更近一步,把NFA轉換為DFA,并對DFA最小化
DFA的定義
對于NFA轉換為DFA的算法,主要就是將NFA中可以狀態(tài)節(jié)點進行合并,進而讓狀態(tài)節(jié)點對于一個輸入字符都有唯一的一個跳轉節(jié)點
所以對于DFA的節(jié)點就含有一個nfa狀態(tài)節(jié)點的集合和一個唯一的標識和對是否是接收狀態(tài)的flag
class Dfa(object):STATUS_NUM = 0def __init__(self):self.nfa_sets = []self.accepted = Falseself.status_num = -1@classmethoddef nfas_to_dfa(cls, nfas):dfa = cls()for n in nfas:dfa.nfa_sets.append(n)if n.next_1 is None and n.next_2 is None:dfa.accepted = Truedfa.status_num = Dfa.STATUS_NUMDfa.STATUS_NUM = Dfa.STATUS_NUM + 1return dfaNFA轉換為DFA
將NFA轉換為DFA的最終目標是獲得一張?zhí)D表,這個和之前C語言編譯的語法分析表有點像
這個函數(shù)就是NFA轉換為DFA的全部算法了,主要邏輯就是:
- 先利用之前的closure算法,計算出可以合并的NFA節(jié)點,然后生成一個DFA的節(jié)點
- 然后對這個DFA集合進行遍歷
- 之后對于每個輸入字符進行move操作,然后對得到的move集合再進行一次closure操作,這樣就可以得到下一個DFA狀態(tài)節(jié)點(這里還要進行一個判重的操作,就是可能當前DFA狀態(tài)節(jié)點可能已經(jīng)生成過了)
- 然后將這兩個節(jié)點的對應關系放入跳轉表中
- 這時候的DFA如果其中含有的NFA存在一個可接收的狀態(tài)節(jié)點,那么當前的DFA的當然也是可接受狀態(tài)了
DFA最小化
DFA最小化本質上是也是對狀態(tài)節(jié)點的合并,然后分區(qū)
Dfa分區(qū)定義
DfaGroup和之前的定義大同小異,都是有一個唯一的標識和一個放DFA狀態(tài)節(jié)點的list
class DfaGroup(object):GROUP_COUNT = 0def __init__(self):self.set_count()self.group = []def set_count(self):self.group_num = DfaGroup.GROUP_COUNTDfaGroup.GROUP_COUNT = DfaGroup.GROUP_COUNT + 1def remove(self, element):self.group.remove(element)def add(self, element):self.group.append(element)def get(self, count):if count > len(self.group) - 1:return Nonereturn self.group[count]def __len__(self):return len(self.group)Minimize DFA
partition是最小化DFA算法最重要的部分
- 會先從跳轉表中找出當前DFA對應跳轉的下一個狀態(tài)節(jié)點
- first是用來比較的DFA節(jié)點
- 如果next節(jié)點的下一個狀態(tài)和first節(jié)點的下一狀態(tài)不在同一分區(qū)下的話,說明它們不可以在同一個分區(qū)
- 就重新創(chuàng)建一個新分區(qū)
所以其實DFA最小化做的就是合并相同的下一個跳轉狀態(tài)的節(jié)點
def partition(jump_table, group, first, next, ch):goto_first = jump_table[first.status_num].get(ch)goto_next = jump_table[next.status_num].get(ch)if dfa_in_group(goto_first) != dfa_in_group(goto_next):new_group = DfaGroup()group_list.append(new_group)group.remove(next)new_group.add(next)return Truereturn False創(chuàng)建跳轉表
再分完區(qū)之后節(jié)點和節(jié)點間的跳轉就變成了區(qū)和區(qū)間的跳轉了
- 遍歷DFA集合
- 從之前的跳轉表中找到相應的節(jié)點和相應的跳轉關系
- 然后找出它們對應的分區(qū),即轉換為分區(qū)和分區(qū)之間的跳轉
匹配輸入字符串
利用跳轉表進行對輸入字符串的匹配的邏輯非常簡單
- 遍歷輸入的字符串
- 拿到當前狀態(tài)對應的輸入的跳轉關系
- 進行跳轉或者完成匹配
總結
到此已經(jīng)完成了一個簡單的正則表達式引擎的所有過程
正則表達式 -> NFA -> DFA -> DFA最小化 -> 進行匹配
轉載于:https://www.cnblogs.com/secoding/p/11582310.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結
以上是生活随笔為你收集整理的实现一个正则表达式引擎in Python(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实现一个正则表达式引擎in Python
- 下一篇: Python基础入门笔记(二)