何为语法树
原文鏈接:BlueSun | 何為語法樹
什么是語法樹?
你是否曾想過,這個世界存在這么多語言的意義。
假如現(xiàn)在你面前有一個物體,它是一個不規(guī)則的圓體,整個身體通紅,頭部還有一根細(xì)長稍微彎曲偏右呈棕色的圓柱體。
在中文我們稱之為「蘋果」,
在英文我們稱之為「Apple」,
在日文中我們稱之為「アップル」,
在法語中我們稱之為「pomme」,
在德語中我們稱之為「Apfel」,
無論用不同的語言,針對這個物體在文字上、發(fā)音上都完全不一樣,但這個物體確確實實的存在這個時空上,顏色、氣味、形狀都不曾因為語言而改變過。
無論這個世界存在多少語言,它們所描述的真理都不曾改變過。
或者說,真理就存在那里,可以用不同的語言的不同表達(dá)方式描述出來。那么計算機的世界,這么多編程的語言,C、C++、Java、C#、JavaScript、Python、Go、Ruby等等等,它們共同所描述的真理是什么?
我們知道人類語言上,無論什么語種,都會有「主語」「動詞」「賓語」「標(biāo)點符號」來描述一個現(xiàn)實世界所發(fā)生的事件。
而在計算機編程語言上,無論什么語種,都會有「類型」「運算符」「流程語句」「函數(shù)」「對象」等概念來表達(dá)計算機中存在內(nèi)存中的0和1,以及背后運算與邏輯。
語法樹,計算機描述世界真理的樹狀結(jié)構(gòu)。
不同的語言,都會配之不同的語法分析器,而語法分析器是把源代碼作為字符串讀入、解析,并建立語法樹的程序。語法的設(shè)計和語法分析器的實現(xiàn)是決定語言外在表現(xiàn)的重要因素。
什么是語法樹?摘自Wiki一段:
在計算機科學(xué)中,抽象語法樹(abstract syntax tree 或者縮寫為 AST),或者語法樹(syntax tree),是源代碼的抽象語法結(jié)構(gòu)的樹狀表現(xiàn)形式,這里特指編程語言的源代碼。樹上的每個節(jié)點都表示源代碼中的一種結(jié)構(gòu)。之所以說語法是「抽象」的,是因為這里的語法并不會表示出真實語法中出現(xiàn)的每個細(xì)節(jié)。
一則簡單的例子
如果我們需要讓計算機幫忙算一下 「1加2再乘以3」 的結(jié)果,該怎么表達(dá)呢?
現(xiàn)在我們大多數(shù)的現(xiàn)代編程語言,都是使用「中綴表達(dá)式」的方式來編寫運算,比如JavaScript:
而FORTH語言則使用「后綴表達(dá)式」,這基本上與日語中的語序是一致的:
1 2 + 3 *LISP語言使用的「前綴表達(dá)式」:
( * (+ 1 2) 3)我們再看一下這三種表達(dá)式的語法樹:
可以看出,對于這三種簡單的語言,它們只是在這個語法樹上按不同的規(guī)則遍歷而已。三者的代碼看起來差別很大,但實際上所用的樹結(jié)構(gòu)是相同的。
先來看看Python的語法樹
通過Python語言自帶的庫文件ast,我們可以查看特定的代碼被轉(zhuǎn)換成怎樣的語法樹。
>>> import ast >>> ast.dump(ast.parse("(1 + 2) * 3")) 'Module(body=[Expr(value=BinOp(left=BinOp(left=Num(n=1), op=Add(), right=Num(n=2)), op=Mult(), right=Num(n=3)))] )'BinOp op = Mult()表示乘法運算,與*相對應(yīng);
BinOp op = Add()表示加法運算,與+相對應(yīng);
Num n = 1既為數(shù)值1。
再窺視一下JavaScript的語法樹
在語法復(fù)雜的語言中,語法樹是包含很多細(xì)節(jié)的語法結(jié)果表達(dá)式,我們需要靠語法樹把這種形式以更簡潔的形式表達(dá)出來。
Javascript 有不少工具可以把代碼構(gòu)造出清晰的語法樹,比如 esprima、v8、SpiderMonkey、UglifyJS、AST explorer等。
這里,我使用「esprima」來探討一下JavaScript運算(1 + 2) * 3的語法樹。
javascript code:
(1 + 2)* 3;ast for json:
{"type": "Program","body": [{"type": "ExpressionStatement","expression": {"type": "BinaryExpression","operator": "*","left": {"type": "BinaryExpression","operator": "+","left": {"type": "Literal","value": 1,"raw": "1"},"right": {"type": "Literal","value": 2,"raw": "2"}},"right": {"type": "Literal","value": 3,"raw": "3"}}}],"sourceType": "script" }body表示程序體,而程序體中包含了一則表達(dá)式ExpressionStatement, 表達(dá)式體里包含了操作符 *,以及左右兩邊表達(dá)式,其中右邊是數(shù)字3,而左邊表達(dá)式還包含一層表達(dá)式,里面是一個+ 操作符,以及左右兩邊分別為1和2的數(shù)字。
如果還沒有看懂,你可以到這里看一下這段代碼所生成的語法樹:AST for (1 + 2)* 3;*%203%0A)
我們可以利用語法樹做些什么?
看到這里你可能會問,知道語法是又有什么用呢?跟我日常編寫代碼貌似半毛錢關(guān)系都沒有。其實語法樹還是很有用的,想一下如果想做「語法高亮」、「關(guān)鍵字匹配」、「作用域判斷」、以及「代碼壓縮」等等,都是最好把代碼解構(gòu)成語法樹之后再去各種操作,當(dāng)然僅僅解構(gòu)還不夠,還需要提供各種函數(shù)去遍歷與修改語法樹。
另一方面,去研究、去探討計算機真實的世界不是一個很精彩很刺激的過程么?
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
- 上一篇: 获取当前路径
- 下一篇: maven项目部署打包