日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【编译原理】构建一个简单的解释器(Let’s Build A Simple Interpreter. Part 9.)(笔记)语法分析(未完,先搁置了!)

發(fā)布時間:2025/3/20 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【编译原理】构建一个简单的解释器(Let’s Build A Simple Interpreter. Part 9.)(笔记)语法分析(未完,先搁置了!) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

【編譯原理】讓我們來構(gòu)建一個簡單的解釋器(Let’s Build A Simple Interpreter. Part 9.)

文章目錄

    • spi.py
    • spi_lexer

我記得當(dāng)我在大學(xué)(很久以前)學(xué)習(xí)系統(tǒng)編程時,我相信唯一“真正”的語言是匯編和 C。而 Pascal 是——怎么說好一點(diǎn)——一種非常高級的語言不想知道幕后發(fā)生了什么的應(yīng)用程序開發(fā)人員。

那時我?guī)缀醪恢牢視?Python 編寫幾乎所有東西(并且喜歡它的每一點(diǎn))來支付我的賬單,而且我還會因?yàn)槲以诘谝黄恼轮刑岬降脑驗(yàn)?Pascal 編寫解釋器和編譯器該系列的。

這些天,我認(rèn)為自己是一個編程語言愛好者,我對所有語言及其獨(dú)特的功能都很著迷。話雖如此,我必須指出,我比其他語言更喜歡使用某些語言。我有偏見,我將是第一個承認(rèn)這一點(diǎn)的人。😃

這是我之前:


好的,讓我們進(jìn)入正題。以下是您今天要學(xué)習(xí)的內(nèi)容:

如何解析和解釋 Pascal 程序定義。
1、如何解析和解釋復(fù)合語句(compound statements)。
2、如何解析和解釋賦值語句(assignment statements),包括變量(variables)。
3、關(guān)于符號表(symbol tables)以及如何存儲和查找變量的一些知識。

我將使用以下示例 Pascal-like 程序來介紹新概念:

BEGINBEGINnumber := 2;a := number;b := 10 * a + 10 * number / 4;c := a - - bEND;x := 11; END.

您可以說,按照本系列的前幾篇文章,到目前為止您編寫的命令行解釋器是一個很大的跳躍,但我希望這種跳躍會帶來興奮。它不再“只是”一個計算器,我們在這里變得認(rèn)真了,Pascal 是認(rèn)真的。😃

讓我們深入了解新語言結(jié)構(gòu)的語法圖(syntax diagrams)及其相應(yīng)的語法規(guī)則(grammar rules)。

在你的標(biāo)記上:準(zhǔn)備好了。放。出發(fā)!




1、我將從描述什么是 Pascal程序開始。Pascal程序由一個以點(diǎn)結(jié)尾的復(fù)合語句組成。下面是一個程序示例:

“BEGIN END.

我必須提示,這不是一個完整的程序定義,我們將在本系列的后面對其進(jìn)行擴(kuò)展。

2、什么是復(fù)合語句?復(fù)合語句(compound statement)是標(biāo)有塊BEGIN和END 語句包括其它復(fù)合語句,它可以包含一個列表(list)(可能為空)。復(fù)合語句中的每一條語句,除了最后一條,都必須以分號(semicolon)結(jié)束。塊中的最后一條語句可能有也可能沒有終止分號。以下是一些有效復(fù)合語句的示例:

“BEGIN END” “BEGIN a := 5; x := 11 END” “BEGIN a := 5; x := 11; END” “BEGIN BEGIN a := 5 END; x := 11 END”

3、語句列表(statement list )是一個復(fù)合語句中的零條或多個語句的列表。有關(guān)一些示例,請參見上文。

4、語句可以是一個復(fù)合語句,一個賦值語句,或者它可以是一個空的 語句。

5、賦值語句(assignment statement)是一個變量后面跟著個ASSIGN標(biāo)記(兩個字符,“:”和“=”),后面再跟著個表達(dá)式。

“a := 11” “b := a + 9 - 5 * 2

6、變量是一個標(biāo)識符。我們?yōu)樽兞渴褂肐D標(biāo)記。標(biāo)記的值將是變量的名稱,如“a”、“number”等。在以下代碼塊中,‘a(chǎn)’ 和 ‘b’ 是變量:

“BEGIN a := 11; b := a + 9 - 5 * 2 END”

7、一個空的聲明表示,沒有進(jìn)一步的生成語法規(guī)則。我們使用empty_statement語法規(guī)則來指示 解析器中statement_list的結(jié)尾,并允許像“ BEGIN END ”中那樣的空復(fù)合語句。

8、factor規(guī)則被用來更新處理變量。

現(xiàn)在讓我們來看看我們完整的語法:

program : compound_statement DOTcompound_statement : BEGIN statement_list ENDstatement_list : statement| statement SEMI statement_liststatement : compound_statement| assignment_statement| emptyassignment_statement : variable ASSIGN exprempty :expr: term ((PLUS | MINUS) term)*term: factor ((MUL | DIV) factor)*factor : PLUS factor| MINUS factor| INTEGER| LPAREN expr RPAREN| variablevariable: ID

您可能已經(jīng)注意到,我沒有在復(fù)合語句規(guī)則中使用星號“*” 來表示零次或多次重復(fù),而是明確指定了statement_list規(guī)則。這是表示“零或多個”操作的另一種方式,當(dāng)我們查看本系列后面的PLY等解析器生成器時,它會派上用場。我還將“( PLUS | MINUS ) factor ”子規(guī)則拆分為兩個單獨(dú)的規(guī)則。

為了支持更新的語法,我們需要對詞法分析器、解析器和解釋器進(jìn)行一些更改。讓我們一一回顧這些變化。

以下是詞法分析器更改的摘要:


1、為了支持 Pascal 程序的定義、復(fù)合語句、賦值語句和變量,我們的詞法分析器需要返回新的標(biāo)記:

  • BEGIN(標(biāo)記復(fù)合語句的開始)
  • END(標(biāo)記復(fù)合語句的結(jié)束)
  • DOT(Pascal 程序定義所需的點(diǎn)字符“.”的標(biāo)記)
  • ASSIGN(兩個字符序列“:=”的標(biāo)記)。在 Pascal 中,賦值運(yùn)算符與 C、Python、Java、Rust 或 Go 等許多其他語言不同,在這些語言中,您可以使用單個字符“=”來表示賦值
  • SEMI(分號字符“;”的標(biāo)記,用于標(biāo)記復(fù)合語句內(nèi)的語句結(jié)束)
  • ID(有效標(biāo)識符的標(biāo)記。標(biāo)識符以字母字符開頭,后跟任意數(shù)量的字母數(shù)字字符)

2、有時,為了能夠區(qū)分以相同字符開頭的不同標(biāo)記,(':' vs ':=' or '==' vs '=>' )我們需要查看輸入緩沖區(qū)而不實(shí)際消耗下一個字符。出于這個特殊目的,我引入了一個peek 方法,它將幫助我們標(biāo)記賦值語句。該方法不是嚴(yán)格要求的,但我想我會在本系列的前面介紹它,它也會使get_next_token 方法更簡潔一些。它所做的只是從文本緩沖區(qū)返回下一個字符,而不增加self.pos變量。這是方法本身:

def peek(self):peek_pos = self.pos + 1if peek_pos > len(self.text) - 1:return Noneelse:return self.text[peek_pos]

3、因?yàn)?Pascal 變量和保留關(guān)鍵字都是標(biāo)識符,所以我們將它們的處理合并到一個稱為_id 的方法中。它的工作方式是詞法分析器使用一系列字母數(shù)字字符,然后檢查該字符序列是否為保留字(reserved word)。如果是,則為該保留關(guān)鍵字返回一個預(yù)先構(gòu)造的標(biāo)記。如果它不是保留關(guān)鍵字,則返回一個新的ID令牌,其值為字符串(詞素【lexeme】)。我打賭此時你會想,“天哪,給我看看代碼。” :) 這里是:

RESERVED_KEYWORDS = {'BEGIN': Token('BEGIN', 'BEGIN'),'END': Token('END', 'END'), }def _id(self):"""Handle identifiers(標(biāo)識符) and reserved keywords"""result = ''while self.current_char is not None and self.current_char.isalnum():result += self.current_charself.advance()token = RESERVED_KEYWORDS.get(result, Token(ID, result))return token

現(xiàn)在讓我們看看主詞法分析器方法get_next_token的變化:

def get_next_token(self):while self.current_char is not None:...if self.current_char.isalpha():return self._id()if self.current_char == ':' and self.peek() == '=':self.advance()self.advance()return Token(ASSIGN, ':=')if self.current_char == ';':self.advance()return Token(SEMI, ';')if self.current_char == '.':self.advance()return Token(DOT, '.')...

是時候看看我們閃亮的新詞法分析器的所有榮耀和動作了。從GitHub下載源代碼并從保存spi.py 文件的同一目錄啟動 Python shell :(spi.py代碼見文章目錄)也可直接見spi_lexer代碼,在pycharm中可直接運(yùn)行或調(diào)試看到結(jié)果

>>> from spi import Lexer >>> lexer = Lexer('BEGIN a := 2; END.') >>> lexer.get_next_token() Token(BEGIN, 'BEGIN') >>> lexer.get_next_token() Token(ID, 'a') >>> lexer.get_next_token() Token(ASSIGN, ':=') >>> lexer.get_next_token() Token(INTEGER, 2) >>> lexer.get_next_token() Token(SEMI, ';') >>> lexer.get_next_token() Token(END, 'END') >>> lexer.get_next_token() Token(DOT, '.') >>> lexer.get_next_token() Token(EOF, None) >>>

繼續(xù)解析器更改。

以下是我們的解析器更改的摘要:

讓我們從新的AST 節(jié)點(diǎn)開始:

復(fù)合 AST節(jié)點(diǎn)表示復(fù)合語句。它在其children 變量中包含一個語句節(jié)點(diǎn)列表。

class Compound(AST):"""Represents a 'BEGIN ... END' block"""def __init__(self):self.children = []

Assign AST節(jié)點(diǎn)代表一個賦值語句。它的左變量用于存儲一個Var節(jié)點(diǎn),它的右變量用于存儲由 expr 解析器方法返回的節(jié)點(diǎn):

class Assign(AST):def __init__(self, left, op, right):self.left = leftself.token = self.op = opself.right = right

Var AST節(jié)點(diǎn)(你猜對了)代表一個變量。該self.value持有變量的名稱。

class Var(AST):"""The Var node is constructed out of ID token."""def __init__(self, token):self.token = tokenself.value = token.value

NoOp節(jié)點(diǎn)用于表示空語句。例如,’ BEGIN END ’ 是一個沒有語句的有效復(fù)合語句。

class NoOp(AST):pass

您還記得,語法中的每個規(guī)則在我們的遞歸下降解析器中都有一個對應(yīng)的方法。這次我們添加了七個新方法。這些方法負(fù)責(zé)解析新的語言結(jié)構(gòu)和構(gòu)建新的AST節(jié)點(diǎn)。它們非常簡單:(ps. 我就喜歡作者這么說!)

def program(self):"""program : compound_statement DOT"""node = self.compound_statement()self.eat(DOT)return nodedef compound_statement(self):"""compound_statement: BEGIN statement_list END"""self.eat(BEGIN)nodes = self.statement_list()self.eat(END)root = Compound()for node in nodes:root.children.append(node)return rootdef statement_list(self):"""statement_list : statement| statement SEMI statement_list"""node = self.statement()results = [node]while self.current_token.type == SEMI:self.eat(SEMI)results.append(self.statement())if self.current_token.type == ID:self.error()return resultsdef statement(self):"""statement : compound_statement| assignment_statement| empty"""if self.current_token.type == BEGIN:node = self.compound_statement()elif self.current_token.type == ID:node = self.assignment_statement()else:node = self.empty()return nodedef assignment_statement(self):"""assignment_statement : variable ASSIGN expr"""left = self.variable()token = self.current_tokenself.eat(ASSIGN)right = self.expr()node = Assign(left, token, right)return nodedef variable(self):"""variable : ID"""node = Var(self.current_token)self.eat(ID)return nodedef empty(self):"""An empty production"""return NoOp()

我們還需要更新現(xiàn)有的factor方法來解析變量:

def factor(self):"""factor : PLUS factor| MINUS factor| INTEGER| LPAREN expr RPAREN| variable"""token = self.current_tokenif token.type == PLUS:self.eat(PLUS)node = UnaryOp(token, self.factor())return node...else:node = self.variable()return node

解析器的parse方法更新為通過解析程序定義來啟動解析過程:

def parse(self):node = self.program()if self.current_token.type != EOF:self.error()return node

這是我們的示例程序:

BEGINBEGINnumber := 2;a := number;b := 10 * a + 10 * number / 4;c := a - - bEND;x := 11; END.

讓我們用genastdot.py對其進(jìn)行可視化(為簡潔起見,當(dāng)顯示Var節(jié)點(diǎn)時,它只顯示節(jié)點(diǎn)的變量名稱,當(dāng)顯示一個 Assign 節(jié)點(diǎn)時,它顯示 ‘:=’ 而不是顯示 ‘Assign’ 文本):

$ python genastdot.py assignments.txt > ast.dot && dot -Tpng -o ast.png ast.dot


最后,這里是所需的解釋器更改:

要解釋新的AST節(jié)點(diǎn),我們需要向解釋器添加相應(yīng)的訪問者方法。有四種新的訪問者方法:

訪問_Compound
訪問_分配
訪問_變量
訪問_NoOp

Compound和NoOp訪問者方法非常簡單。該visit_Compound方法遍歷它的孩子和參觀各一轉(zhuǎn),和visit_NoOp方法不起作用。

def visit_Compound(self, node):for child in node.children:self.visit(child)def visit_NoOp(self, node):pass

在分配和瓦爾游客方法值得仔細(xì)研究。

當(dāng)我們?yōu)樽兞抠x值時,我們需要將該值存儲在某個地方以備日后需要時使用,這正是visit_Assign方法所做的:

def visit_Assign(self, node):var_name = node.left.valueself.GLOBAL_SCOPE[var_name] = self.visit(node.right)

該方法在符號表GLOBAL_SCOPE 中存儲鍵值對(變量名和與變量關(guān)聯(lián)的值)。什么是符號表?甲符號表是一個抽象數(shù)據(jù)類型(ADT用于在源代碼中追蹤各種符號)。我們現(xiàn)在唯一的符號類別是變量,我們使用 Python 字典來實(shí)現(xiàn)符號表ADT。現(xiàn)在我只想說,本文中符號表的使用方式非常“hacky”:它不是一個具有特殊方法的單獨(dú)類,而是一個簡單的 Python 字典,它還作為內(nèi)存空間執(zhí)行雙重任務(wù)。在以后的文章中,我將更詳細(xì)地討論符號表,我們還將一起刪除所有的黑客。

讓我們看一下語句“a := 3;”的AST 和visit_Assign方法之前和之后的符號表完成它的工作:

現(xiàn)在讓我們看一下語句“b := a + 7;”的AST

如您所見,賦值語句的右側(cè) - “a + 7” - 引用了變量 ‘a(chǎn)’,因此在我們評估表達(dá)式“a + 7”之前,我們需要找出 ’ 的值a’ 是,這是visit_Var 方法的職責(zé):

def visit_Var(self, node):var_name = node.valueval = self.GLOBAL_SCOPE.get(var_name)if val is None:raise NameError(repr(var_name))else:return val

當(dāng)該方法訪問上圖AST 中的Var節(jié)點(diǎn)時,它首先獲取變量的名稱,然后使用該名稱作為GLOBAL_SCOPE字典中的鍵來獲取變量的值。如果它可以找到該值,則返回該值,否則會引發(fā)NameError異常。以下是在評估賦值語句“b := a + 7;”之前的符號表內(nèi)容:

這些都是我們今天需要做的改變,以使我們的解釋器打勾。在主程序結(jié)束時,我們簡單地將符號表 GLOBAL_SCOPE 的內(nèi)容打印到標(biāo)準(zhǔn)輸出。

讓我們從 Python 交互式 shell 和命令行中使用我們更新的解釋器作為驅(qū)動器。確保在測試之前下載了解釋器的源代碼和assignments.txt文件:

啟動你的 Python shell:

$ python >>> from spi import Lexer, Parser, Interpreter >>> text = """\ ... BEGIN ... ... BEGIN ... number := 2; ... a := number; ... b := 10 * a + 10 * number / 4; ... c := a - - b ... END; ... ... x := 11; ... END. ... """ >>> lexer = Lexer(text) >>> parser = Parser(lexer) >>> interpreter = Interpreter(parser) >>> interpreter.interpret() >>> print(interpreter.GLOBAL_SCOPE) {'a': 2, 'x': 11, 'c': 27, 'b': 25, 'number': 2}

從命令行,使用源文件作為我們解釋器的輸入:

$ python spi.py assignments.txt {'a': 2, 'x': 11, 'c': 27, 'b': 25, 'number': 2}

如果您還沒有嘗試過,現(xiàn)在就嘗試一下,親眼看看解釋器是否正確地完成了它的工作。

讓我們總結(jié)一下你在這篇文章中擴(kuò)展 Pascal 解釋器需要做的事情:

向語法添加新規(guī)則
向詞法分析器添加新標(biāo)記和支持方法并更新get_next_token 方法
向解析器添加新的AST節(jié)點(diǎn)以獲得新的語言結(jié)構(gòu)
將與新語法規(guī)則相對應(yīng)的新方法添加到我們的遞歸下降解析器中,并在必要時更新任何現(xiàn)有方法(因子方法,我在看著你。😃
向解釋器添加新的訪問者方法
添加用于存儲變量和查找變量的字典

在這一部分中,我不得不介紹一些“技巧”,我們將隨著系列的推進(jìn)而將其刪除:

該程序的語法規(guī)則是不完整的。稍后我們將使用其他元素對其進(jìn)行擴(kuò)展。
Pascal 是一種靜態(tài)類型語言,您必須在使用它之前聲明一個變量及其類型。但是,正如您所看到的,本文中的情況并非如此。
到目前為止沒有類型檢查。在這一點(diǎn)上這沒什么大不了的,但我只是想明確地提到它。例如,一旦我們向解釋器添加更多類型,當(dāng)您嘗試添加字符串和整數(shù)時,我們將需要報告錯誤。
這部分中的符號表是一個簡單的 Python 字典,它具有雙重存儲空間的功能。不用擔(dān)心:符號表是一個非常重要的主題,我將專門針對它們撰寫幾篇文章。內(nèi)存空間(運(yùn)行時管理)本身就是一個話題。
在我們之前文章中的簡單計算器中,我們使用正斜杠字符“/”來表示整數(shù)除法。但是,在 Pascal 中,您必須使用關(guān)鍵字div來指定整數(shù)除法(參見練習(xí) 1)。
我還特意引入了一個 hack,以便您可以在練習(xí) 2 中修復(fù)它:在 Pascal 中,所有保留關(guān)鍵字和標(biāo)識符都不區(qū)分大小寫,但本文中的解釋器將它們視為區(qū)分大小寫。

為了讓你保持健康,這里有新的練習(xí)給你:

Pascal 變量和保留關(guān)鍵字不區(qū)分大小寫,這與許多其他編程語言不同,因此BEGIN、begin和BeGin它們都引用相同的保留關(guān)鍵字。更新解釋器,使變量和保留關(guān)鍵字不區(qū)分大小寫。使用以下程序?qū)ζ溥M(jìn)行測試:

BEGINBEGINnumber := 2;a := NumBer;B := 10 * a + 10 * NUMBER / 4;c := a - - bend;x := 11; END.

我之前在“hacks”部分提到我們的解釋器使用正斜杠字符“/”來表示整數(shù)除法,但它應(yīng)該使用 Pascal 的保留關(guān)鍵字div進(jìn)行整數(shù)除法。更新解釋器以使用div關(guān)鍵字進(jìn)行整數(shù)除法,從而消除其中一種技巧。

更新解釋器,以便變量也可以以下劃線開頭,如 ‘_num := 5’。

spi.py

""" SPI - Simple Pascal Interpreter. Part 9."""############################################################################### # # # LEXER # # # ################################################################################ Token types # # EOF (end-of-file) token is used to indicate that # there is no more input left for lexical analysis (INTEGER, PLUS, MINUS, MUL, DIV, LPAREN, RPAREN, ID, ASSIGN,BEGIN, END, SEMI, DOT, EOF) = ('INTEGER', 'PLUS', 'MINUS', 'MUL', 'DIV', '(', ')', 'ID', 'ASSIGN','BEGIN', 'END', 'SEMI', 'DOT', 'EOF' )class Token(object):def __init__(self, type, value):self.type = typeself.value = valuedef __str__(self):"""String representation of the class instance.Examples:Token(INTEGER, 3)Token(PLUS, '+')Token(MUL, '*')"""return 'Token({type}, {value})'.format(type=self.type,value=repr(self.value))def __repr__(self):return self.__str__()RESERVED_KEYWORDS = {'BEGIN': Token('BEGIN', 'BEGIN'),'END': Token('END', 'END'), }class Lexer(object):def __init__(self, text):# client string input, e.g. "4 + 2 * 3 - 6 / 2"self.text = text# self.pos is an index into self.textself.pos = 0self.current_char = self.text[self.pos]def error(self):raise Exception('Invalid character')def advance(self):"""Advance the `pos` pointer and set the `current_char` variable."""self.pos += 1if self.pos > len(self.text) - 1:self.current_char = None # Indicates end of inputelse:self.current_char = self.text[self.pos]def peek(self):peek_pos = self.pos + 1if peek_pos > len(self.text) - 1:return Noneelse:return self.text[peek_pos]def skip_whitespace(self):while self.current_char is not None and self.current_char.isspace():self.advance()def integer(self):"""Return a (multidigit) integer consumed from the input."""result = ''while self.current_char is not None and self.current_char.isdigit():result += self.current_charself.advance()return int(result)def _id(self):"""Handle identifiers and reserved keywords"""result = ''while self.current_char is not None and self.current_char.isalnum():result += self.current_charself.advance()token = RESERVED_KEYWORDS.get(result, Token(ID, result))return tokendef get_next_token(self):"""Lexical analyzer (also known as scanner or tokenizer)This method is responsible for breaking a sentenceapart into tokens. One token at a time."""while self.current_char is not None:if self.current_char.isspace():self.skip_whitespace()continueif self.current_char.isalpha():return self._id()if self.current_char.isdigit():return Token(INTEGER, self.integer())if self.current_char == ':' and self.peek() == '=':self.advance()self.advance()return Token(ASSIGN, ':=')if self.current_char == ';':self.advance()return Token(SEMI, ';')if self.current_char == '+':self.advance()return Token(PLUS, '+')if self.current_char == '-':self.advance()return Token(MINUS, '-')if self.current_char == '*':self.advance()return Token(MUL, '*')if self.current_char == '/':self.advance()return Token(DIV, '/')if self.current_char == '(':self.advance()return Token(LPAREN, '(')if self.current_char == ')':self.advance()return Token(RPAREN, ')')if self.current_char == '.':self.advance()return Token(DOT, '.')self.error()return Token(EOF, None)############################################################################### # # # PARSER # # # ###############################################################################class AST(object):passclass BinOp(AST):def __init__(self, left, op, right):self.left = leftself.token = self.op = opself.right = rightclass Num(AST):def __init__(self, token):self.token = tokenself.value = token.valueclass UnaryOp(AST):def __init__(self, op, expr):self.token = self.op = opself.expr = exprclass Compound(AST):"""Represents a 'BEGIN ... END' block"""def __init__(self):self.children = []class Assign(AST):def __init__(self, left, op, right):self.left = leftself.token = self.op = opself.right = rightclass Var(AST):"""The Var node is constructed out of ID token."""def __init__(self, token):self.token = tokenself.value = token.valueclass NoOp(AST):passclass Parser(object):def __init__(self, lexer):self.lexer = lexer# set current token to the first token taken from the inputself.current_token = self.lexer.get_next_token()def error(self):raise Exception('Invalid syntax')def eat(self, token_type):# compare the current token type with the passed token# type and if they match then "eat" the current token# and assign the next token to the self.current_token,# otherwise raise an exception.if self.current_token.type == token_type:self.current_token = self.lexer.get_next_token()else:self.error()def program(self):"""program : compound_statement DOT"""node = self.compound_statement()self.eat(DOT)return nodedef compound_statement(self):"""compound_statement: BEGIN statement_list END"""self.eat(BEGIN)nodes = self.statement_list()self.eat(END)root = Compound()for node in nodes:root.children.append(node)return rootdef statement_list(self):"""statement_list : statement| statement SEMI statement_list"""node = self.statement()results = [node]while self.current_token.type == SEMI:self.eat(SEMI)results.append(self.statement())if self.current_token.type == ID:self.error()return resultsdef statement(self):"""statement : compound_statement| assignment_statement| empty"""if self.current_token.type == BEGIN:node = self.compound_statement()elif self.current_token.type == ID:node = self.assignment_statement()else:node = self.empty()return nodedef assignment_statement(self):"""assignment_statement : variable ASSIGN expr"""left = self.variable()token = self.current_tokenself.eat(ASSIGN)right = self.expr()node = Assign(left, token, right)return nodedef variable(self):"""variable : ID"""node = Var(self.current_token)self.eat(ID)return nodedef empty(self):"""An empty production"""return NoOp()def expr(self):"""expr : term ((PLUS | MINUS) term)*"""node = self.term()while self.current_token.type in (PLUS, MINUS):token = self.current_tokenif token.type == PLUS:self.eat(PLUS)elif token.type == MINUS:self.eat(MINUS)node = BinOp(left=node, op=token, right=self.term())return nodedef term(self):"""term : factor ((MUL | DIV) factor)*"""node = self.factor()while self.current_token.type in (MUL, DIV):token = self.current_tokenif token.type == MUL:self.eat(MUL)elif token.type == DIV:self.eat(DIV)node = BinOp(left=node, op=token, right=self.factor())return nodedef factor(self):"""factor : PLUS factor| MINUS factor| INTEGER| LPAREN expr RPAREN| variable"""token = self.current_tokenif token.type == PLUS:self.eat(PLUS)node = UnaryOp(token, self.factor())return nodeelif token.type == MINUS:self.eat(MINUS)node = UnaryOp(token, self.factor())return nodeelif token.type == INTEGER:self.eat(INTEGER)return Num(token)elif token.type == LPAREN:self.eat(LPAREN)node = self.expr()self.eat(RPAREN)return nodeelse:node = self.variable()return nodedef parse(self):"""program : compound_statement DOTcompound_statement : BEGIN statement_list ENDstatement_list : statement| statement SEMI statement_liststatement : compound_statement| assignment_statement| emptyassignment_statement : variable ASSIGN exprempty :expr: term ((PLUS | MINUS) term)*term: factor ((MUL | DIV) factor)*factor : PLUS factor| MINUS factor| INTEGER| LPAREN expr RPAREN| variablevariable: ID"""node = self.program()if self.current_token.type != EOF:self.error()return node############################################################################### # # # INTERPRETER # # # ###############################################################################class NodeVisitor(object):def visit(self, node):method_name = 'visit_' + type(node).__name__visitor = getattr(self, method_name, self.generic_visit)return visitor(node)def generic_visit(self, node):raise Exception('No visit_{} method'.format(type(node).__name__))class Interpreter(NodeVisitor):GLOBAL_SCOPE = {}def __init__(self, parser):self.parser = parserdef visit_BinOp(self, node):if node.op.type == PLUS:return self.visit(node.left) + self.visit(node.right)elif node.op.type == MINUS:return self.visit(node.left) - self.visit(node.right)elif node.op.type == MUL:return self.visit(node.left) * self.visit(node.right)elif node.op.type == DIV:return self.visit(node.left) // self.visit(node.right)def visit_Num(self, node):return node.valuedef visit_UnaryOp(self, node):op = node.op.typeif op == PLUS:return +self.visit(node.expr)elif op == MINUS:return -self.visit(node.expr)def visit_Compound(self, node):for child in node.children:self.visit(child)def visit_Assign(self, node):var_name = node.left.valueself.GLOBAL_SCOPE[var_name] = self.visit(node.right)def visit_Var(self, node):var_name = node.valueval = self.GLOBAL_SCOPE.get(var_name)if val is None:raise NameError(repr(var_name))else:return valdef visit_NoOp(self, node):passdef interpret(self):tree = self.parser.parse()if tree is None:return ''return self.visit(tree)def main():import systext = open(sys.argv[1], 'r').read()lexer = Lexer(text)parser = Parser(lexer)interpreter = Interpreter(parser)result = interpreter.interpret()print(interpreter.GLOBAL_SCOPE)if __name__ == '__main__':main()

在spi.py文件所在的文件夾打開控制臺,運(yùn)行結(jié)果:

C:\Users\Administrator\Desktop\編譯原理\python>python Python 3.6.8 (tags/v3.6.8:3c6b436a57, Dec 24 2018, 00:16:47) [MSC v.1916 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> from spi import Lexer >>> lexer = Lexer('BEGIN a := 2; END.') >>> lexer.get_next_token() Token(BEGIN, 'BEGIN') >>> lexer.get_next_token() Token(ID, 'a') >>> lexer.get_next_token() Token(ASSIGN, ':=') >>> lexer.get_next_token() Token(INTEGER, 2) >>> lexer.get_next_token() Token(SEMI, ';') >>> lexer.get_next_token() Token(END, 'END') >>> lexer.get_next_token() Token(DOT, '.') >>> lexer.get_next_token() Token(EOF, None) >>>

spi_lexer

# -*- coding: utf-8 -*- """ @File : spi_lexer.py @Time : 2021/8/2 10:02 @Author : Dontla @Email : sxana@qq.com @Software: PyCharm """ ############################################################################### # # # LEXER # # # ################################################################################ Token types # # EOF (end-of-file) token is used to indicate that # there is no more input left for lexical analysis (INTEGER, PLUS, MINUS, MUL, DIV, LPAREN, RPAREN, ID, ASSIGN,BEGIN, END, SEMI, DOT, EOF) = ('INTEGER', 'PLUS', 'MINUS', 'MUL', 'DIV', '(', ')', 'ID', 'ASSIGN','BEGIN', 'END', 'SEMI', 'DOT', 'EOF' )class Token(object):def __init__(self, type, value):self.type = typeself.value = valuedef __str__(self):"""String representation of the class instance.Examples:Token(INTEGER, 3)Token(PLUS, '+')Token(MUL, '*')"""return 'Token({type}, {value})'.format(type=self.type,value=repr(self.value))def __repr__(self):return self.__str__()RESERVED_KEYWORDS = {'BEGIN': Token('BEGIN', 'BEGIN'),'END': Token('END', 'END'), }class Lexer(object):def __init__(self, text):# client string input, e.g. "4 + 2 * 3 - 6 / 2"self.text = text# self.pos is an index into self.textself.pos = 0self.current_char = self.text[self.pos]def error(self):raise Exception('Invalid character')def advance(self):"""Advance the `pos` pointer and set the `current_char` variable."""self.pos += 1if self.pos > len(self.text) - 1:self.current_char = None # Indicates end of inputelse:self.current_char = self.text[self.pos]def peek(self):peek_pos = self.pos + 1if peek_pos > len(self.text) - 1:return Noneelse:return self.text[peek_pos]def skip_whitespace(self):while self.current_char is not None and self.current_char.isspace():self.advance()def integer(self):"""Return a (multidigit) integer consumed from the input."""result = ''while self.current_char is not None and self.current_char.isdigit():result += self.current_charself.advance()return int(result)def _id(self):"""Handle identifiers and reserved keywords"""result = ''# isalnum() 函數(shù)檢測至少有一個字符并且所有字符都是字母或數(shù)字則返回 True,否則返回 Falsewhile self.current_char is not None and self.current_char.isalnum():result += self.current_charself.advance()# get()函數(shù)返回字典指定鍵的值,如果鍵不存在,則返回get第二個參數(shù)的值(可選)# 如果字母數(shù)字字符串在保留字內(nèi)則返回保留字字典中的值,否則返回Token(ID, result)token = RESERVED_KEYWORDS.get(result, Token(ID, result))return tokendef get_next_token(self):"""Lexical analyzer (also known as scanner or tokenizer)This method is responsible for breaking a sentenceapart into tokens. One token at a time."""while self.current_char is not None:if self.current_char.isspace():self.skip_whitespace()continueif self.current_char.isalpha():return self._id()if self.current_char.isdigit():return Token(INTEGER, self.integer())# “:=”同時做判斷if self.current_char == ':' and self.peek() == '=':self.advance()self.advance()return Token(ASSIGN, ':=')if self.current_char == ';':self.advance()return Token(SEMI, ';')if self.current_char == '+':self.advance()return Token(PLUS, '+')if self.current_char == '-':self.advance()return Token(MINUS, '-')if self.current_char == '*':self.advance()return Token(MUL, '*')if self.current_char == '/':self.advance()return Token(DIV, '/')if self.current_char == '(':self.advance()return Token(LPAREN, '(')if self.current_char == ')':self.advance()return Token(RPAREN, ')')if self.current_char == '.':self.advance()return Token(DOT, '.')self.error()return Token(EOF, None)if __name__ == '__main__':lexer = Lexer('BEGIN a := 2; END.')while True:token = lexer.get_next_token()print(token)if token.type == EOF:break

運(yùn)行結(jié)果:

D:\python_virtualenv\my_flask\Scripts\python.exe C:/Users/Administrator/Desktop/編譯原理/python/spi_lexer.py Token(BEGIN, 'BEGIN') Token(ID, 'a') Token(ASSIGN, ':=') Token(INTEGER, 2) Token(SEMI, ';') Token(END, 'END') Token(DOT, '.') Token(EOF, None)進(jìn)程已結(jié)束,退出代碼0

總結(jié)

以上是生活随笔為你收集整理的【编译原理】构建一个简单的解释器(Let’s Build A Simple Interpreter. Part 9.)(笔记)语法分析(未完,先搁置了!)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 禁漫天堂下载18 | 亚洲一区av | 在线播放国产一区 | 亚洲色偷精品一区二区三区 | 一区二区影院 | 国产婷婷一区二区三区久久 | 欧美成人一级视频 | 中文字幕在线观看视频一区二区 | 国产高清视频免费观看 | 秘密基地免费观看完整版中文 | 蜜臀va| 免费看成人aa片无码视频羞羞网 | 天堂在线观看av | 免费的毛片网站 | 日本少妇毛茸茸 | 国产污污网站 | 岳乳丰满一区二区三区 | 欧美一区二区不卡视频 | 久久久精品人妻一区二区三区色秀 | 鬼灭之刃柱训练篇在线观看 | 精品伦一区二区三区 | 麻豆传媒在线观看 | 国产免费99| 激情五月婷婷色 | 少妇xxxx69| 国产日批视频在线观看 | 久久成人激情 | 亚洲精品国产精品国自产网站按摩 | 日韩精品亚洲精品 | 亚洲无码乱码精品国产 | 狠狠久久综合 | 天堂色在线 | 国产尻逼| a天堂在线| 国产精品嫩草影院av蜜臀 | 欧美日韩国产91 | 中日韩黄色大片 | 狠狠91| 久久成人一区二区 | 午夜av免费观看 | 亚洲福利小视频 | 国产一区二区三区视频免费观看 | xxx视频网站 | 91嫩草入口 | 奇米精品一区二区三区在线观看 | 私人影院毛片 | 97人妻天天摸天天爽天天 | 一区二区免费在线观看 | 67194国产 | 很黄很色的视频 | 91亚洲一线产区二线产区 | 视频在线免费观看 | 夜夜操夜夜爽 | 中国黄色录像一级片 | 久久嫩| 欧美无砖专区免费 | 精品国产一区在线观看 | 日本黄色一区二区三区 | 一色屋免费视频 | 91精品国产一区二区无码 | 久久五月视频 | 把高贵美妇调教成玩物 | 在线观看成年人视频 | 精品久久久久一区二区 | 亚洲精品天堂在线观看 | 91av入口 | 另类捆绑调教少妇 | 黄色动漫在线观看 | 奶妈的诱惑 | 亚洲天堂av一区 | 波多野一区 | 少妇高潮一区二区三区在线 | 中文字幕7 | 九九成人 | 精品av一区二区 | 国产毛片毛片毛片毛片毛片毛片 | 欧洲成人在线视频 | 日韩精品人妻无码一本 | 欧美淫视频| 久久精品亚洲一区二区 | 男人天堂手机在线 | 国产a国产片 | 啪啪激情网 | 色欲欲www成人网站 老色鬼av | 惊艳大片mv视频 | 催眠调教艳妇成肉便小说 | 国产又黄又粗的视频 | 小草av在线 | 日韩欧美一级在线 | 亚洲免费视频播放 | 午夜一区二区三区在线 | 欧洲女同同性吃奶 | 性久久久久久久 | 91在线中文字幕 | 99久久久久无码国产精品 | 日本高清视频网站 | 日韩专区欧美专区 | 四虎综合 | 中文av免费 |