日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

实现一个正则表达式引擎in Python(三)

發布時間:2023/12/20 python 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 实现一个正则表达式引擎in Python(三) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

項目地址:Regex in Python

前兩篇已經完成的寫了一個基于NFA的正則表達式引擎了,下面要做的就是更近一步,把NFA轉換為DFA,并對DFA最小化

DFA的定義

對于NFA轉換為DFA的算法,主要就是將NFA中可以狀態節點進行合并,進而讓狀態節點對于一個輸入字符都有唯一的一個跳轉節點

所以對于DFA的節點就含有一個nfa狀態節點的集合和一個唯一的標識和對是否是接收狀態的flag

class Dfa(object):STATUS_NUM = 0def __init__(self):self.nfa_sets = []self.accepted = Falseself.status_num = -1@classmethoddef nfas_to_dfa(cls, nfas):dfa = cls()for n in nfas:dfa.nfa_sets.append(n)if n.next_1 is None and n.next_2 is None:dfa.accepted = Truedfa.status_num = Dfa.STATUS_NUMDfa.STATUS_NUM = Dfa.STATUS_NUM + 1return dfa

NFA轉換為DFA

將NFA轉換為DFA的最終目標是獲得一張跳轉表,這個和之前C語言編譯的語法分析表有點像

這個函數就是NFA轉換為DFA的全部算法了,主要邏輯就是:

  • 先利用之前的closure算法,計算出可以合并的NFA節點,然后生成一個DFA的節點
  • 然后對這個DFA集合進行遍歷
  • 之后對于每個輸入字符進行move操作,然后對得到的move集合再進行一次closure操作,這樣就可以得到下一個DFA狀態節點(這里還要進行一個判重的操作,就是可能當前DFA狀態節點可能已經生成過了)
  • 然后將這兩個節點的對應關系放入跳轉表中
  • 這時候的DFA如果其中含有的NFA存在一個可接收的狀態節點,那么當前的DFA的當然也是可接受狀態了
def convert_to_dfa(nfa_start_node):jump_table = list_dict(MAX_DFA_STATUS_NUM)ns = [nfa_start_node]n_closure = closure(ns)dfa = Dfa.nfas_to_dfa(n_closure)dfa_list.append(dfa)dfa_index = 0while dfa_index < len(dfa_list):dfa = dfa_list[dfa_index]for i in range(ASCII_COUNT):c = chr(i)nfa_move = move(dfa.nfa_sets, c)if nfa_move is not None:nfa_closure = closure(nfa_move)if nfa_closure is None:continuenew_dfa = convert_completed(dfa_list, nfa_closure)if new_dfa is None:new_dfa = Dfa.nfas_to_dfa(nfa_closure)dfa_list.append(new_dfa)next_state = new_dfa.status_numjump_table[dfa.status_num][c] = next_stateif new_dfa.accepted:jump_table[new_dfa.status_num]['accepted'] = Truedfa_index = dfa_index + 1return jump_table

DFA最小化

DFA最小化本質上是也是對狀態節點的合并,然后分區

  • 先根據是否為接收狀態進行分區
  • 再根據DFA跳轉表的跳轉關系對分區里的節點進行再次分區,如果當前DFA節點跳轉后的狀態節點也位于同一個分區中,證明它們可以被歸為一個分區
  • 重復上面的算法
  • Dfa分區定義

    DfaGroup和之前的定義大同小異,都是有一個唯一的標識和一個放DFA狀態節點的list

    class DfaGroup(object):GROUP_COUNT = 0def __init__(self):self.set_count()self.group = []def set_count(self):self.group_num = DfaGroup.GROUP_COUNTDfaGroup.GROUP_COUNT = DfaGroup.GROUP_COUNT + 1def remove(self, element):self.group.remove(element)def add(self, element):self.group.append(element)def get(self, count):if count > len(self.group) - 1:return Nonereturn self.group[count]def __len__(self):return len(self.group)

    Minimize DFA

    partition是最小化DFA算法最重要的部分

    • 會先從跳轉表中找出當前DFA對應跳轉的下一個狀態節點
    • first是用來比較的DFA節點
    • 如果next節點的下一個狀態和first節點的下一狀態不在同一分區下的話,說明它們不可以在同一個分區
    • 就重新創建一個新分區

    所以其實DFA最小化做的就是合并相同的下一個跳轉狀態的節點

    def partition(jump_table, group, first, next, ch):goto_first = jump_table[first.status_num].get(ch)goto_next = jump_table[next.status_num].get(ch)if dfa_in_group(goto_first) != dfa_in_group(goto_next):new_group = DfaGroup()group_list.append(new_group)group.remove(next)new_group.add(next)return Truereturn False

    創建跳轉表

    再分完區之后節點和節點間的跳轉就變成了區和區間的跳轉了

    • 遍歷DFA集合
    • 從之前的跳轉表中找到相應的節點和相應的跳轉關系
    • 然后找出它們對應的分區,即轉換為分區和分區之間的跳轉
    def create_mindfa_table(jump_table):trans_table = list_dict(ASCII_COUNT)for dfa in dfa_list:from_dfa = dfa.status_numfor i in range(ASCII_COUNT):ch = chr(i)to_dfa = jump_table[from_dfa].get(ch)if to_dfa:from_group = dfa_in_group(from_dfa)to_group = dfa_in_group(to_dfa)trans_table[from_group.group_num][ch] = to_group.group_numif dfa.accepted:from_group = dfa_in_group(from_dfa)trans_table[from_group.group_num]['accepted'] = Truereturn trans_table

    匹配輸入字符串

    利用跳轉表進行對輸入字符串的匹配的邏輯非常簡單

    • 遍歷輸入的字符串
    • 拿到當前狀態對應的輸入的跳轉關系
    • 進行跳轉或者完成匹配
    def dfa_match(input_string, jump_table, minimize=True):if minimize:cur_status = dfa_in_group(0).group_numelse:cur_status = 0 for i, c in enumerate(input_string):jump_dict = jump_table[cur_status]if jump_dict:js = jump_dict.get(c)if js is None:return Falseelse:cur_status = jsif i == len(input_string) - 1 and jump_dict.get('accepted'):return Truereturn jump_table[cur_status].get('accepted') is not None

    總結

    到此已經完成了一個簡單的正則表達式引擎的所有過程

    正則表達式 -> NFA -> DFA -> DFA最小化 -> 進行匹配

    轉載于:https://www.cnblogs.com/secoding/p/11582310.html

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的实现一个正则表达式引擎in Python(三)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。