机器学习从入门到精通50讲(九)-基于 ANTLR 自己实现一个 SQL 解析器
一、背景
自2014年大數(shù)據(jù)首次寫入政府工作報告,大數(shù)據(jù)已經(jīng)發(fā)展7年。大數(shù)據(jù)的類型也從交易數(shù)據(jù)延伸到交互數(shù)據(jù)與傳感數(shù)據(jù)。數(shù)據(jù)規(guī)模也到達了PB級別。
大數(shù)據(jù)的規(guī)模大到對數(shù)據(jù)的獲取、存儲、管理、分析超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍。在這個背景下,各種大數(shù)據(jù)相關(guān)工具相繼出現(xiàn),用于應(yīng)對各種業(yè)務(wù)場景需求。從Hadoop生態(tài)的Hive, Spark, Presto, Kylin, Druid到非Hadoop生態(tài)的ClickHouse, Elasticsearch,不一而足...
這些大數(shù)據(jù)處理工具特性不同,應(yīng)用場景不同,但是對外提供的接口或者說操作語言都是相似的,即各個組件都是支持SQL語言。只是基于不同的應(yīng)用場景和特性,實現(xiàn)了各自的SQL方言。這就要求相關(guān)開源項目自行實現(xiàn)SQL解析。在這個背景下,誕生于1989年的語法解析器生成器ANTLR迎來了黃金時代。
二、簡介
ANTLR是開源的語法解析器生成器,距今已有30多年的歷史。是一個經(jīng)歷了時間考驗的開源項目。一個程序從源代碼到機器可執(zhí)行,基本需要3個階段:編寫、編譯、執(zhí)行。
在編譯階段,需要進行詞法和語法的分析。ANTLR聚焦的問題就是把源碼進行詞法和句法分析,產(chǎn)生一個樹狀的分析器。ANTLR幾乎支持對所有主流編程語言的解析。從antlr/grammars-v4可以看到,ANTLR支持Java,C, Python, SQL等數(shù)十種編程語言。通常我們沒有擴展編程語言的需求,所以大部分情況下這些語言編譯支持更多是供學習研究使用,或者用在各種開發(fā)工具(NetBeans、Intellij)中用于校驗語法正確性、和格式化代碼。
對于SQL語言,ANTLR的應(yīng)用廣度和深度會更大,這是由于Hive, Presto, SparkSQL等由于需
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的机器学习从入门到精通50讲(九)-基于 ANTLR 自己实现一个 SQL 解析器的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 产品经验谈:设计思维 统计思维
- 下一篇: 新手上路之django项目开发(二)--