java编译器源码分析之语法分析器
token流到抽象語法樹的過程是語法分析。
前面認識到token流,這部分將介紹抽象語法樹(AST)。
那么什么是抽象語法樹(AST)?AST長啥樣?我們的token流是如何轉變成AST的?下面圍繞這三個問題展開討論。
針對什么是抽象語法樹以及語法樹長啥樣兩個問題。可以看看這篇博客,文章對于語法樹的結構和原理闡述的很清楚。在這里我想說的是:①抽象語法樹是源代碼抽象樹結構的另一種表示;②抽象語法樹是一種獨立于源語言的語言結構,它有自己的語言規范;③抽象語法樹在不同編譯器中實現的方法不一樣,比如c的編譯器和javac,因此抽象語法樹適用于多種語言。
由于語法分析的源碼過于繁雜,不可能窮盡源碼中的各種情況,因此我將以解析下面實例代碼為路徑說明語法解析的過程。
實例代碼:
javac根據token來生成不同的樹節點。比如token是PACKAGE時生成一個JCExpression樹節點;token是IMPORT時生成一個JCTree節點;token為CLASS時生成一個JCTree節點;每個樹節點帶有不同的子節點。最后三個節點形成一個JCTree.JCCompilationUnit對象,此對象就是這個類的抽象語法樹。下面可分別來看一下他們的主要步驟:
Token.PACKAGE
if (S.token() == PACKAGE) {if (mods != null) {checkNoMods(mods.flags);packageAnnotations = mods.annotations;mods = null;}S.nextToken();pid = qualident();accept(SEMI);}步驟1:if代碼塊的意思是判斷package前是否有@注解,如果有則保存注解到packageAnnotations列表中;
步驟2:通過com.sun.tools.javac.parser.Scanner.nextToken()獲取下一個token;
步驟3:com.sun.tools.javac.parser.Parser.qualident()解析包名生成包的AST(JCExpression);
步驟4:以分號結尾;
生成語法樹的步驟3是重點,可詳細來看下:
public JCExpression qualident() { JCExpression t = toP(F.at(S.pos()).Ident(ident()));while (S.token() == DOT) {int pos = S.pos();S.nextToken(); t = toP(F.at(pos).Select(t, ident()));}return t;}步驟1:通過com.sun.tools.javac.tree.TreeMaker.Ident(Name)方法建立一個JCIdent類型的樹節點;節點name為token.name,節點tag為IDENT(35),節點的symbol為null,節點的pos為當前token的pos;
步驟2:如果token為DOT(.),則進入步驟3;否則直接返回返回生成的樹節點(JCExpress);
步驟3:記錄當前詞法解析器的token位置pos,并獲取該token;
步驟4:在pos位置通過com.sun.tools.javac.tree.TreeMaker.Select(JCExpression, Name)方法生成JCFieldAccess類型的節點;節點name為token.name,節點tag為SELECT(34),節點symbol為null,節點pos為token的位置;節點JCExpression為上一個的樹節點;獲取下一個token
步驟5:執行步驟2;
此時,package這一行構建了一個抽象語法樹(包含JCIdent和JCFieldAccess樹節點)。
Token.IMPORT
JCTree importDeclaration() {int pos = S.pos();S.nextToken();boolean importStatic = false;if (S.token() == STATIC) {checkStaticImports();importStatic = true;S.nextToken();}JCExpression pid = toP(F.at(S.pos()).Ident(ident()));do {int pos1 = S.pos();accept(DOT);if (S.token() == STAR) {pid = to(F.at(pos1).Select(pid, names.asterisk));//導入“.*"的情況S.nextToken();break;} else {pid = toP(F.at(pos1).Select(pid, ident()));}} while (S.token() == DOT);accept(SEMI);return toP(F.at(pos).Import(pid, importStatic));}步驟1:處理靜態導入的情況,如果jdk大于1.5則checkStaticImports()返回true;
步驟2:通過com.sun.tools.javac.tree.TreeMaker.Ident(Name)方法生成JCIdent類型的樹節點;
步驟3:處理DOT后面的標識符,如果token為STAR(*),則生成JCFieldAccess樹節點,并結束循環返回生成的樹;如果是正常的標識符則正常生成樹節點;
步驟4:分號結束;
步驟5:生成JCImport類型的樹節點,節點tag為IMPORT(2),節點子節點為上步驟的各樹節點;
Token.CLASS
針對類以及類的屬性和方法構建抽象語法樹的過程比較繁雜,源碼中對約定位置出現約定的內容進行不同的處理,可以看出java語言是一種規范性較強的語言。
步驟1:通過com.sun.tools.javac.parser.Parser.modifiersOpt(JCModifiers)方法建立class關鍵字前面修飾符(public/static/final)的樹節點JCModifiers;
步驟2:通過com.sun.tools.javac.parser.Parser.classOrInterfaceOrEnumDeclaration(JCModifiers, String)建立類或者接口或者枚舉類的抽象語法樹;
整個實例代碼的抽象語法是如圖
總結
通過對源碼的分析可知:
1> 抽象語法樹的每一個節點都是一個JCXXX類型的對象;這個JCXXX繼承了JCTree類并實現XXXTree接口;
2> JCTree類中定義了各種各樣的標簽,用來鑒別樹節點的類型。標簽用int整形值表示,IMPORT= 2,CLASSDEF=3,METHODDEF=4等;針對每一種標簽定義了對應標簽的樹節點,比如JCTree.INDETIFIER的節點類型是JCIden,JCTree.SEMI的節點類型是JCSkip,JCTree.PRIVATE或者JCTree.STATIC的節點類型是JCModifiers,JCTree.CLASSDEF原生數據類型int/Boolean/double等的節點類型是JCPrimitiveTypeTree。這里可以思考一下為什么要定義不同類型的節點?
3> 每一個樹節點下除了tag標簽外,還有不同的信息;特別對于樹節點的嵌套,比如建立package的抽象語法樹時,name為com,type為JCIdent的樹節點作為一個JCExpression嵌套在name為test,type為JCFieldAccess樹節點內,而它又作為JCExpression嵌套在name為syx,type為JCFieldAccess樹節點內。
4> 最后把package的節點樹,import的節點樹和class節點樹封裝成一個JCCompilationUnit節點,此節點標簽tag為TOPLEVEL,表明為頂層節點。
至此Token流到抽象語法樹的過程已經結束,可以看出詞法分析和語法分析是融為一體的,我在分析的時候是拆開分析的。即得到一個token就會形成樹節點(這里表述不太準確,并非一個token是一個樹節點,比如定義的成員變量前面的修飾符private static則為一個樹節點)。
參考資料
《javaweb技術內幕分析》
針對package-info.java的知識點:https://www.cnblogs.com/pepcod/archive/2013/02/20/2918856.html
針對抽象語法樹的知識點:https://blog.csdn.net/philosophyatmath/article/details/38170131
https://blog.csdn.net/Dear_Mr/article/details/72587908?locationNum=2&fps=1
針對語法解析的知識點:https://blog.csdn.net/wang_jiao_jiao/article/details/79715548
注:個人還在學習階段,博客僅以記載學習過程,如有錯誤還望大佬批評指正。
總結
以上是生活随笔為你收集整理的java编译器源码分析之语法分析器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GBase数据库-数据转换函数
- 下一篇: 邮件发送类,支持Gmail