使用 Antlr 开发领域语言
Antlr 簡介
回頁首
Antlr 能做什么
編程語言處理
識別和處理編程語言是 Antlr 的首要任務(wù),編程語言的處理是一項繁重復(fù)雜的任務(wù),為了簡化處理,一般的編譯技術(shù)都將語言處理工作分為前端和后端兩個部分。其中前端包括詞法分析、語法分析、語義分析、中間代碼生成等若干步驟,后端包括目標(biāo)代碼生成和代碼優(yōu)化等步驟。
Antlr 致力于解決編譯前端的所有工作。使用 Anltr 的語法可以定義目標(biāo)語言的詞法記號和語法規(guī)則,Antlr 自動生成目標(biāo)語言的詞法分析器和語法分析器;此外,如果在語法規(guī)則中指定抽象語法樹的規(guī)則,在生成語法分析器的同時,Antlr 還能夠生成抽象語法樹;最終使用樹分析器遍歷抽象語法樹,完成語義分析和中間代碼生成。整個工作在 Anltr 強大的支持下,將變得非常輕松和愉快。
文本處理
當(dāng)需要文本處理時,首先想到的是正則表達(dá)式,使用 Anltr 的詞法分析器生成器,可以很容易的完成正則表達(dá)式能夠完成的所有工作;除此之外使用 Anltr 還可以完成一些正則表達(dá)式難以完成的工作,比如識別左括號和右括號的成對匹配等。
回頁首
Antlr 的安裝
| CLASSPATH = %CLASSPATH%; C:/ antlr-3.2.jar |
| CLASSPATH = %CLASSPATH%; C:/ Antlrworks-1.4.jar |
運行 java org.antlr.works.IDE,然后在 Antlrworks 的 GUI 中新建或者打開文法文件。使用 Antlrworks 可以可視化顯示文法,并可以對語法分析樹和抽象語法樹可視化。
回頁首
表達(dá)式定義
文法定義
我們定義一個最簡單的領(lǐng)域語言,從一個簡單的完成算術(shù)運算的例子出發(fā),詳細(xì)說明 Antlr 的使用。首先我們需要創(chuàng)建一個 Antlr 的文法文件, 一般以 .g 為文件名后綴,命名為 Expr.g 。
在這個文法文件中根據(jù) Antlr 的語法規(guī)則來定義算術(shù)表達(dá)式的文法,文件的頭部是 grammar 關(guān)鍵字,定義文法的名字:
| grammar Expr; |
為了簡單起見,假設(shè)我們的自定義語言只能輸入一個算術(shù)表達(dá)式。從而整個程序有一個語句構(gòu)成,語句有表達(dá)式或者換行符構(gòu)成。如清單 1 所示:
清單 1 程序和語句
| prog: stat ; stat: expr |NEWLINE ; |
在 Anltr 中,算法的優(yōu)先級需要通過文法規(guī)則的嵌套定義來體現(xiàn),加減法的優(yōu)先級低于乘除法,表達(dá)式 expr 的定義由乘除法表達(dá)式 multExpr 和加減法算符 ('+'|'-') 構(gòu)成;同理,括號的優(yōu)先級高于乘除法,乘除法表達(dá)式 multExpr 通過原子操作數(shù) atom 和乘除法算符 ('*'|'/') 構(gòu)成。整個表達(dá)的定義如清單 2 所示:
清單 2 表達(dá)式
| Expr : multExpr (('+'|'-') multExpr)* ; multExpr : atom (('*'|'/') atom)* ; atom: '(' expr ')' | INT | ID ; |
最后需要考慮的詞法的定義,在 Antlr 中語法定義和詞法定義通過規(guī)則的第一個字符來區(qū)別, 規(guī)定語法定義符號的第一個字母小寫,而詞法定義符號的第一個字母大寫。算術(shù)表達(dá)式中用到了 4 類記號 ( 在 Antlr 中被稱為 Token),分別是標(biāo)識符 ID,表示一個變量;常量 INT,表示一個常數(shù);換行符 NEWLINE 和空格 WS,空格字符在語言處理時將被跳過,skip() 是詞法分析器類的一個方法。如清單 3 所示:
清單 3 記號定義
| ID : ('a'..'z' |'A'..'Z')+ ; INT : '0'..'9' + ; NEWLINE:'\r' ? '\n' ; WS : (' ' |'\t' |'\n' |'\r' )+ {skip();} ; |
Antlr 支持多種目標(biāo)語言,可以把生成的分析器生成為 Java,C#,C,Python,JavaScript 等多種語言,默認(rèn)目標(biāo)語言為 Java,通過 options {language=?;} 來改變目標(biāo)語言。我們的例子中目標(biāo)語言為 Java。
運行 Antlr
完成文法定義之后,即可以運行 Antlr,為我們生成需要的詞法分析器和語法分析器。在命令行運行以下下命令,如清單 4 所示:
清單 4 運行 Antlr
| java org.antlr.Tool c:/ antlr_intro\src\expr\Expr.g |
成功運行Antlr之后,將為我們生成 3 個文件,Expr.tokens、ExprLexer.java和ExprParser.java。其中Expr.tokens為文法中用到的各種符號做了數(shù)字化編號,我們可以不關(guān)注這個文件。ExprLexer是Antlr生成的詞法分析器,ExprParser是Antlr 生成的語法分析器,如圖 1 所示。
圖 1 Antlr 生成結(jié)果
?
表達(dá)式驗證
基于 Antlr 生成的詞法分析器和語法分析器后,可以基于它們來驗證我們的輸入的表達(dá)式是否合法。我們需要調(diào)用 Antlr 的 API 完成以下 Java 程序,如清單 5 所示:
清單 5 調(diào)用分析器
| public static void run(String expr) throws Exception { ANTLRStringStream in = new ANTLRStringStream(expr); ExprLexer lexer = new ExprLexer(in); CommonTokenStream tokens = new CommonTokenStream(lexer); ExprParser parser = new ExprParser(tokens); parser.prog(); } |
對每一個輸入的字符串,我們構(gòu)造一個 ANTLRStringStream 流 in,用 in 構(gòu)造詞法分析器 lexer,詞法分析的作用是產(chǎn)生記號,用詞法分析器 lexer 構(gòu)造一個記號流 tokens,然后再使用 tokens 構(gòu)造語法分析器 parser,至此已經(jīng)完成詞法分析和語法分析的準(zhǔn)備工作。最終調(diào)用語法分析器的規(guī)則 prog,完成對表達(dá)式的驗證。詳細(xì)的 Java 程序參考樣例代碼中的 Test.java。
當(dāng)輸入合法的的表達(dá)式時,分析器沒有任何輸出,表示語言被分析器接受;當(dāng)輸入的表達(dá)式違反文法規(guī)則時,比如“a + (b * 3”,分析器輸出 line 0:-1 mismatched input '<EOF>' expecting ')';提示期待一個右括號卻遇到了結(jié)束符號。如圖 2 所示:
圖 2 表達(dá)式驗證結(jié)果
?
文法可視化
使用 Antlrworks 打開 Expr.g,Antlrworks 對每一個文法定義都做了可視化顯示。整體的文法定義如圖 3:
圖 3 文法定義的可視化
?
其中語法規(guī)則和詞法記號的定義都有對應(yīng)的圖形表示方式。比如語法規(guī)則 atom 的圖示形式如圖 4 所示:
圖 4 語法規(guī)則 atom 的可視化
?
詞法記號 ID 的圖示形式如圖 5 所示:
圖 5 詞法記號 ID 的可視化
?
使用 Antlrworks 還可以對語法分析樹可視化,在 Antlrworks 的 GUI 窗口中,點擊 Run ->Debug, 在 Input Text 窗口中輸入 a+(2 + b),Start Rule 選擇 prog, 然后完成調(diào)試,可以看到 a+(2 + b) 時的語法分析樹,如圖 6 所示:
圖 6 a+(2+b) 的語法分析樹
?
回頁首
表達(dá)式求值
抽象語法樹
截至目前使用 Anltr 生成的詞法分析器和語法分析器,除了校驗表述式輸入合法性之外,沒有更多的用處。如果需要對表達(dá)式做進(jìn)一步的處理,對表達(dá)式的運算結(jié)果求值,使用 Antlr 可以有兩種選擇,第一,直接在我們之前的 Expr 文法中嵌入動作,加入 Java 代碼片段;第二,使用 Antlr 的抽象語法樹語法,在語法分析的同時將用戶輸入轉(zhuǎn)換成中間表示方式:抽象語法樹,后續(xù)在遍歷語法樹的同時完成計算。
第二種方法在結(jié)構(gòu)上更為清晰,便于開發(fā)和維護(hù),我們使用第二種方法完成表達(dá)式的求值。首先來建立抽象語法樹,Antlr 中建立抽象語法樹只需在原來文法的基礎(chǔ)上加上建樹語法即可。改寫我們的 Expr 文法,在每一個語法規(guī)則后,加上相應(yīng)的抽象語法樹語法。清單 6,展示了程序和語句規(guī)則對應(yīng)的抽象語法樹節(jié)點。其 ^ 符用于指示樹的根節(jié)點,PROG 和 STAT 是我們引入的占位符號,僅僅是一個字符串,用于區(qū)別不同的節(jié)點。
清單 6 程序和語句的抽象語法樹節(jié)點
| prog : stat -> ^(PROG stat); stat : expr EOF -> ^(STAT expr) |
除了可以使用占位符做根節(jié)點外,算符也可以直接作為根節(jié)點,如清單 7 所示,加減乘除 4 個算符分別作為抽象語法樹的根節(jié)點來建立樹。
清單 7 表達(dá)式的抽象語法樹節(jié)點
| expr : multExpr (('+'|'-')^ multExpr)* ; multExpr : atom (('*'|'/')^ atom)* ; atom : '(' expr ')' -> expr | INT -> ^(NUM INT) | ID -> ^(VAR ID) ; |
再次使用 Antlrworks 打開 Expr.g,在調(diào)試窗口輸入表達(dá)式 a+(2 + b),完成調(diào)試可以看到 a+(2 + b) 對應(yīng)的抽象語法樹如圖 7 所示。整個表達(dá)式是一個 PROG,PROG 中包含了一個 STAT,而 STAT 是由一棵表達(dá)式構(gòu)成的。
圖 7 a+(2+b) 的抽象語法樹
?
解釋器
抽象語法樹建立之后,可以使用 Antlr 的樹分析器來構(gòu)造表達(dá)式的解釋器。樹分析器的語法和前面的表達(dá)式文法有所區(qū)別,創(chuàng)建一個 Eval.g 文件,文件的頭部通過 tree grammar 來標(biāo)識這是一個樹分析器。
| tree grammar Eval; |
之后對抽象語法樹節(jié)點逐一加入語義動作,完成最終的解釋執(zhí)行。樹分析器會深度優(yōu)先遍歷抽象語法樹,當(dāng) PROG 節(jié)點返回時,完成整個計算,輸出計算結(jié)果。STAT 擁有一個返回值,它的值取決于表達(dá)式的值。如清單 8 所示:
清單 8 程序和語句的解釋
| prog : ^(PROG s=stat) {System.out.println("Compute result : " + s.value);}; stat returns[Integer value] : ^(STAT e=expr) {$value = e.value;} ; |
表達(dá)式同樣擁有返回值,算術(shù)運算的求值只需用左子節(jié)點的值和右子節(jié)點的值完成對應(yīng)的運算即可;葉子節(jié)點 atom,如果輸入是一個常量,直接求出常量代表的值;如果輸入是一個變量,簡單起見,我們用一個隨機數(shù)來為其賦值,如清單 9 所示。實際應(yīng)用中,可以替換為從數(shù)據(jù)庫中或者從文件中讀入變量的值。
清單 9 表達(dá)式的解釋
| expr returns[Integer value] : ^('+' e1=expr e2=expr) {$value = e1.value + e2.value;} | ^('-' e1=expr e2=expr) {$value = e1.value - e2.value;} | ^('*' e1=expr e2=expr) {$value = e1.value * e2.value;} | ^('/' e1=expr e2=expr) {$value = e1.value / e2.value;} | a=atom {$value = a.value;} ; atom returns[Integer value] : ^(NUM i=INT) {$value = Integer.parseInt(i.getText());} | ^(VAR v=ID){ Random rand = new Random(); $value = rand.nextInt(10);} ; |
完成 Eval.g 的編輯之后,再次運行 Antlr.
| java org.antlr.Tool c:/ antlr_intro\src\intepreter\Eval.g |
Antlr 生成了樹分析器 Eval.java。使用 Antlr 的 API 完成以下 java 代碼,如清單 10 所示。至此完成了對輸入表達(dá)式的解釋求值。
清單 10 調(diào)用解釋器
| public static void run(String expr) throws Exception { ANTLRStringStream in = new ANTLRStringStream(expr); ExprLexer lexer = new ExprLexer(in); CommonTokenStream tokens = new CommonTokenStream(lexer); ExprParser parser = new ExprParser(tokens); ExprParser.prog_return ret = parser.prog(); CommonTree t = (CommonTree)ret.getTree(); CommonTreeNodeStream nodes = new CommonTreeNodeStream(t); nodes.setTokenStream(tokens); Eval e_walker = new Eval(nodes); e_walker.prog(); } |
解釋器執(zhí)行結(jié)果如圖 8 所示:
圖 8 解釋的輸出結(jié)果
?
編譯器
編譯執(zhí)行和解釋執(zhí)行相比,需要依賴于特定的目標(biāo)機器,而解釋執(zhí)行不需要。表達(dá)式求值的語義不是十分復(fù)雜,在這里我們假設(shè)有一臺這樣機器,它用堆棧進(jìn)行運算,支持以下 7 種指令,如表 1 所示:
表 1 抽象機的 7 條指令
| LDV | Load Variable | 1 | 變量入棧 |
| LDC | Load Constant | 1 | 常量入棧 |
| ADD | Add | 0 | 棧頂兩個元素出棧,求和后入棧 |
| SUB | Subtract | 0 | 棧頂兩個元素出棧,求差后入棧 |
| MUL | Multiply | 0 | 棧頂兩個元素出棧,求積后入棧 |
| DIV | Divide | 0 | 棧頂兩個元素出棧,求商后入棧 |
| RET | Return | 0 | 棧頂一個元素出棧,計算結(jié)束 |
和之前的解釋器類似,創(chuàng)建一個 Compiler.g 樹分析器文件,其中各個表達(dá)式的編譯方案如清單 11 所示:
清單 11 表達(dá)式的編譯
| prog : ^(PROG s=stat) {System.out.println("RET");}; stat : ^(STAT e=expr) ; expr : ^('+' e1=expr e2=expr) {System.out.println("ADD");} | ^('-' e1=expr e2=expr) {System.out.println("SUB");} | ^('*' e1=expr e2=expr) {System.out.println("MUL");} | ^('/' e1=expr e2=expr) {System.out.println("DIV");} | a=atom ; atom : ^(NUM i=INT) {System.out.println("LDC "+i.getText());} | ^(VAR v=ID) {System.out.println("LDV "+v.getText());} ; |
完成 Compiler.g 的編輯之后,再次運行 Antlr.
java org.antlr.Tool c:/?antlr_intro\src\Compiler\Compiler.g
Antlr 生成了樹分析器 Compiler.java。使用Antlr的 API 完成以下java代碼,如清單 12 所示。至此完成了把表達(dá)式編譯為抽象機的指令。
清單 12 調(diào)用編譯器
| public static void run(String expr) throws Exception { ANTLRStringStream in = new ANTLRStringStream(expr); ExprLexer lexer = new ExprLexer(in); CommonTokenStream tokens = new CommonTokenStream(lexer); ExprParser parser = new ExprParser(tokens); ExprParser.prog_return ret = parser.prog(); CommonTree t = (CommonTree)ret.getTree(); CommonTreeNodeStream nodes = new CommonTreeNodeStream(t); nodes.setTokenStream(tokens); Compiler c_walker = new Compiler(nodes); c_walker.prog(); } |
編譯的輸出結(jié)果如圖 9 所示:
圖 9 編譯器的輸出結(jié)果
?
回頁首
結(jié)束語
本文用算術(shù)表達(dá)式作為例子,全面展示 Antlr 的使用方法,Antlrworks 的使用方法,以及 Antlr 三大主要功能,詞法分析器、語法分析器和樹分析器。當(dāng)你需要開發(fā)一種語言時,可以考慮使用 Antlr 作為你的助手。
回頁首
下載
| 示例代碼 | antlr_intro.rar | 24KB | HTTP |
關(guān)于下載方法的信息
參考資料
學(xué)習(xí)
- Antlr?全球站點, 有關(guān)于 Anltr 的最全面的參考資料。
- The Definitive ANTLR Reference(Building Domain-Specific Languages): Terence Parr 最新的 Antlr 著作
- Domain Specific Languages?(Martin Fowler,Addison-Wesley,2010 年):Fowler 的新書。
- developerWorks Java 技術(shù)專區(qū):查看大量關(guān)于 Java 編程的方方面面的文章。?
討論
- 加入?developerWorks 中文社區(qū)。
關(guān)于作者
高尚是一名軟件開發(fā)工程師,具有 6 年的軟件從業(yè)經(jīng)驗,在 Java 開發(fā)和財務(wù)軟件方面積累了一些經(jīng)驗,對編譯技術(shù)和 Java 開發(fā)具有濃厚興趣。
為本文評分
總結(jié)
以上是生活随笔為你收集整理的使用 Antlr 开发领域语言的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【设计模式】结构型模式——装饰模式
- 下一篇: 阿里巴巴网站运营模式