flink source 同步_为什么说 Flink + AI 值得期待?
Lambda架構(gòu),流批統(tǒng)一和AI實時化
Flink 在AI 中的價值其實和大數(shù)據(jù)中Lambda架構(gòu) [2]和流批統(tǒng)一這兩個概念有關(guān)系,Flink為大數(shù)據(jù)實時化帶來的價值也將同樣使AI受益。不妨讓我們簡單回顧一下大數(shù)據(jù)的發(fā)展過程。從Google奠基性的“三架馬車” [3][4][5] 論文發(fā)表后的很長一段時間內(nèi),大數(shù)據(jù)的發(fā)展主線上都只有批計算的身影。后來隨著大家認識到數(shù)據(jù)時效性的重要作用,Twitter 開源的流計算引擎Storm [6] 紅極一時,各種流計算引擎也紛紛登場,其中也包括了Flink。由于成本、計算準(zhǔn)確性和容錯性等方面的考慮,各家企業(yè)紛紛使用起了被稱為Lambda架構(gòu)的解決方案,在同一個架構(gòu)下融合批計算和流計算,以便在成本,容錯和數(shù)據(jù)時效性之間達到一個平衡。Lambda架構(gòu)在解決數(shù)據(jù)時效性的同時也存在一些問題,其中最受詬病的就是其系統(tǒng)復(fù)雜度和可維護性。用戶需要為Batch Layer 和 Speed Layer 各維護一套引擎和代碼,還需要保證二者之間的計算邏輯完全一致(圖1)。圖1為了解決這個問題,各個計算引擎不約而同的開始了流批統(tǒng)一的嘗試,試圖使用同一套引擎來執(zhí)行流和批的任務(wù)(圖2)。經(jīng)過若干年的大浪淘沙,Spark [7] 和Flink成為了目前處于第一梯隊的兩款主流計算引擎。Flink 是從流計算逐漸進入到批計算,一個非常典型的成功案例就是使用同一套標(biāo)準(zhǔn)的SQL語句對流和批進行查詢,并保證最終結(jié)果一致性[8]。而Spark 則是采用微批 (Micro Batch) 的方式從批計算進入到流計算提出了Spark Streaming,但是在時延的表現(xiàn)上始終遜色一些。圖2可以看到,在大數(shù)據(jù)的發(fā)展過程中,Lambda架構(gòu)和流批一體背后的原始驅(qū)動力是數(shù)據(jù)實時化。同樣是向數(shù)據(jù)要價值,AI對數(shù)據(jù)時效性的要求同大數(shù)據(jù)是一致的。因此AI實時化也將會是一個重要的發(fā)展方向。在觀察目前主流的AI場景和技術(shù)架構(gòu)時,我們也會發(fā)現(xiàn)它們與大數(shù)據(jù)平臺有很多聯(lián)系和相似之處。目前的 AI大致可以分為數(shù)據(jù)預(yù)處理(也稱數(shù)據(jù)準(zhǔn)備/特征工程等),模型訓(xùn)練和推理預(yù)測三個主要階段。下面我們逐一來看一看在每個階段中AI實時化需求有哪些,又有什么樣的問題待解決。為了便于與大數(shù)據(jù)的架構(gòu)做類比,我們姑且認為流計算和批計算作為一種計算類型的劃分維度已經(jīng)將所有基于數(shù)據(jù)的計算一分為二,沒有遺漏了。AI的各個階段根據(jù)場景不同,也可以歸為二者之一。數(shù)據(jù)預(yù)處理(數(shù)據(jù)準(zhǔn)備/特征工程)數(shù)據(jù)預(yù)處理階段是模型訓(xùn)練和推理預(yù)測的前置環(huán)節(jié),很多時候它更多的是一個大數(shù)據(jù)問題。根據(jù)數(shù)據(jù)預(yù)處理后的下游不同,數(shù)據(jù)預(yù)處理可能是批計算也可能是流計算,計算類型和下游一致。在一個典型的離線訓(xùn)練(批計算)和在線預(yù)測(流計算)場景下,訓(xùn)練和預(yù)測時要求產(chǎn)生輸入數(shù)據(jù)的預(yù)處理邏輯是一致的(比如相同的樣本拼接邏輯),這里的需求和Lambda架構(gòu)中的需求一樣,因此一個流批統(tǒng)一的引擎會格外有優(yōu)勢。這樣可以避免批作業(yè)和流作業(yè)使用兩個不同的引擎,省去了維護邏輯一致的兩套代碼的麻煩。模型訓(xùn)練目前而言AI訓(xùn)練階段基本上是批計算(離線訓(xùn)練)產(chǎn)生靜態(tài)模型(Static Model)的過程。這是因為目前絕大多數(shù)的模型是基于獨立同分布(IID)的統(tǒng)計規(guī)律實現(xiàn)的,也就是從大量的訓(xùn)練樣本中找到特征和標(biāo)簽之間的統(tǒng)計相關(guān)性(Correlation),這些統(tǒng)計相關(guān)性通常不會突然變化,因此在一批樣本上訓(xùn)練出的數(shù)據(jù)在另一批具有相同的特征分布的樣本上依然適用。然而這樣的離線模型訓(xùn)練產(chǎn)生的靜態(tài)模型依然可能存在一些問題。首先樣本數(shù)據(jù)可能隨著時間推移會發(fā)生分布變化,這種情況下,在線預(yù)測的樣本分布和訓(xùn)練樣本的分布會產(chǎn)生偏移,從而使模型預(yù)測的效果變差。因此靜態(tài)模型通常需要重新訓(xùn)練,這可以是一個定期過程或者通過對樣本和模型的預(yù)測效果進行監(jiān)控來實現(xiàn)(注意這里的監(jiān)控本身其實是一個典型的流計算需求)。另外,在有些場景下,預(yù)測階段的樣本分布可能無法在訓(xùn)練階段就知曉。舉例來說,在阿里雙十一,微博熱搜,高頻交易等這類樣本分布可能發(fā)生無法預(yù)測的分布改變的場景下,如何迅速更新模型來得到更好的預(yù)測結(jié)果是十分有價值的。因此一個理想的AI計算架構(gòu)中,應(yīng)該把如何及時更新模型納入考慮。在這方面流計算也有著一些獨特的優(yōu)勢。事實上,阿里巴巴在搜索推薦系統(tǒng)中已經(jīng)在使用在線機器學(xué)習(xí),并且在雙十一這樣的場景下取得了良好的效果。推理預(yù)測推理預(yù)測環(huán)節(jié)的環(huán)境和計算類型比較豐富,既有批處理(離線預(yù)測)又有流處理。流式預(yù)測又大致可以分為在線 (Online) 預(yù)測和近線 (Nearline) 預(yù)測。在線預(yù)測通常處于用戶訪問的關(guān)鍵鏈路(Critical Path中),因此對latency的要求極高,比如毫秒級。而近線預(yù)測要求略低一些,通常在亞秒級到秒級。目前大多數(shù)純流式分布式計算(Native Stream Processing)引擎可以滿足近線數(shù)據(jù)預(yù)處理和預(yù)測的需求,而在線數(shù)據(jù)預(yù)處理和預(yù)測則通常需要將預(yù)測代碼寫進應(yīng)用程序內(nèi)部來滿足極致的低延遲要求。因此在線預(yù)測的場景也比較少看到大數(shù)據(jù)引擎的身影。在這方面Flink的Stateful Function [9] 是一個獨特的創(chuàng)新,Stateful Function的設(shè)計初衷是在Flink上通過若干有狀態(tài)的函數(shù)來構(gòu)建一個在線應(yīng)用,通過它可以做到超低延遲的在線預(yù)測服務(wù),這樣用戶可以在離線,近線和在線三種場景下使用同一套代碼同一個引擎來進行數(shù)據(jù)預(yù)處理和預(yù)測。綜上所述,可以看到在機器學(xué)習(xí)的每個主要階段中對AI實時化都有重要的需求,那什么樣的系統(tǒng)架構(gòu)能夠有效滿足這樣的需求呢?Flink和AI實時化的架構(gòu)
目前最典型的AI架構(gòu)示例是離線訓(xùn)練配合在線推理預(yù)測(圖3)。圖3正如之前提到的,這個架構(gòu)存在兩個問題:模型更新的周期通常比較長。
離線和在線的預(yù)處理可能需要維護兩套代碼。
流批一體算法庫Alink
Deep Learning on Flink (flink-ai-extended [11])
流批統(tǒng)一的迭代語義和高性能實現(xiàn)
Flink ML Pipeline [12]:幫助用戶方便的存儲和復(fù)用一個機器學(xué)習(xí)的完整計算邏輯。
Flink Python API(PyFlink [13]):Python 是AI 的母語,PyFlink為用戶提供AI中最重要的編程接口。
Notebook Integration [14](Zeppelin):為用戶的AI實驗提供友好的API。
原生Kubernetes支持 [15]:和Kubernetes集成來支持基于云原生的的開發(fā)、部署和運維。
AI Flow:兼顧流計算的大數(shù)據(jù) + AI 頂層工作流抽象和配套服務(wù)(即將開源)。
Stateful Function[9]:提供堪比在線應(yīng)用的超低延遲數(shù)據(jù)預(yù)處理和推理預(yù)測。
?
寫在最后
Apache Flink 從一個簡單的流計算想法開始,直到今天成長為一個業(yè)界流行的實時計算開源項目,使所有人受益,這個過程中離不開Flink社區(qū)中數(shù)以百計的代碼貢獻者和數(shù)以萬計的用戶。我們相信Flink在AI上也能夠有所作為,也歡迎更多的人能夠加入到Flink社區(qū),同我們一起共創(chuàng)并共享AI實時化的價值。Flink AI,未來可期。參考資料:[1]https://ververica.cn/developers/the-number-of-github-stars-doubled-in-only-one-year/[MOU1]?[2] https://en.wikipedia.org/wiki/Lambda_architecture[3]https://static.googleusercontent.com/media/research.google.com/en//archive/gfs-sosp2003.pdf[4]https://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf[5]https://static.googleusercontent.com/media/research.google.com/en//archive/bigtable-osdi06.pdf[6] https://storm.apache.org/[7] https://spark.apache.org/[8]https://ci.apache.org/projects/flink/flink-docs-release-1.10//dev/table/sql/index.html[9] https://statefun.io/[10] https://github.com/alibaba/alink[11] https://github.com/alibaba/flink-ai-extended[12]https://cwiki.apache.org/confluence/display/FLINK/FLIP-39+Flink+ML+pipeline+and+ML+libs[13]https://ci.apache.org/projects/flink/flink-docs-release-1.10/tutorials/python_table_api.html[14]?https://mp.weixin.qq.com/s/a6Zau9c1ZWTSotl_dMg0Xg[15]https://ci.apache.org/projects/flink/flink-docs-stable/ops/deployment/kubernetes.html[16]https://cwiki.apache.org/confluence/display/FLINK/FLIP-27%3A+Refactor+Source+Interface賈揚清在線發(fā)邀請函
邀請你來看直播
CAFFE之父、ONNX創(chuàng)始人、阿里巴巴集團副總裁?賈揚清?在線直播《 人工智能算法和系統(tǒng)的進化》。
點擊文末“閱讀原文”或識別下方二維碼,收藏鏈接,2月20日?19:00 -?20:30?看直播。
「 更多干貨,更多收獲?」服務(wù)社區(qū)抗疫軟件與智能外呼機器人!我們已經(jīng)準(zhǔn)備好了什么是人機對話模型?阿里小蜜團隊寫了1.5萬字關(guān)注機器智能把握未來可能戳我,接收賈揚清的邀請函總結(jié)
以上是生活随笔為你收集整理的flink source 同步_为什么说 Flink + AI 值得期待?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国潜水员刷新记录!用的华为WATCH
- 下一篇: ai不同形状的拼版插件_AI矩形/异型自