flink集成springboot案例_Flink从流处理到流批一体的19个最佳实践
近年來,隨著實時化需求的場景日益增多,企業(yè)已不滿足于簡單使用流計算或批計算進(jìn)行數(shù)據(jù)處理,采用一套引擎即可實現(xiàn)低延遲、高吞吐、高穩(wěn)定的強(qiáng)大性能逐漸成為更多企業(yè)的追求。Apache Flink 作為領(lǐng)先的開源大數(shù)據(jù)計算引擎,在流批一體的探索上日臻成熟,并在穩(wěn)定性、性能和效率方面都經(jīng)受住了阿里巴巴雙11的嚴(yán)苛生產(chǎn)環(huán)境考驗。
如今,除電商行業(yè)外,Flink 流批一體的應(yīng)用幾何?在降本增效的需求驅(qū)動下,企業(yè)如何實現(xiàn)數(shù)據(jù)與算力價值最大化?
12月13日-15日,Flink Forward Asia 2020?在線峰會,來自字節(jié)跳動、騰訊、快手、微博、Bigo、網(wǎng)易游戲、知乎、愛奇藝、小米、京東、汽車之家、貝殼找房、58同城、好未來、360、網(wǎng)易云音樂、有贊、螞蟻集團(tuán)、天貓等 19 家各行業(yè)的先行者們分享優(yōu)秀的技術(shù)實踐案例,及其實用、可落地的技術(shù)應(yīng)用開發(fā)經(jīng)驗。
▼ 掃碼了解完整大會議程?▼(大會官網(wǎng))本文節(jié)選?Flink Forward?Asia 2020 在線峰會行業(yè)實踐專場主題分享,并詳細(xì)介紹各主題內(nèi)容供大家參考,更多大會議程請點擊「閱讀原文」~
快手基于 Apache Flink 的持續(xù)優(yōu)化實踐
董亭亭 |?快手實時計算負(fù)責(zé)人本次議題主要介紹快手基于 Apache Flink 在穩(wěn)定性、可用性及 SQL 引擎方面進(jìn)行的持續(xù)優(yōu)化與實踐。重點包括三部分:穩(wěn)定性優(yōu)化。各類單點故障造成的作業(yè)重啟,優(yōu)化故障發(fā)現(xiàn)、作業(yè)重啟過程,進(jìn)一步縮短作業(yè)恢復(fù)時間。
作業(yè)啟動優(yōu)化。優(yōu)化作業(yè)啟動流程,進(jìn)一步縮短作業(yè)升級啟動時間。
Flink SQL 優(yōu)化。在 Flink SQL 應(yīng)用過程的問題做進(jìn)一步優(yōu)化,包括優(yōu)化 udf 重復(fù)執(zhí)行,優(yōu)化 groupby bounded 場景下數(shù)據(jù)傾斜問題。
Bigo 實時計算平臺建設(shè)實踐
徐帥 |?Apache Flink Contributor,Bigo計算平臺負(fù)責(zé)人主要介紹 Bigo 實時計算平臺的建設(shè)及為支持業(yè)務(wù)場景所做擴(kuò)展及優(yōu)化。分為幾個小節(jié):介紹 Bigo 實時計算平臺的發(fā)展過程及現(xiàn)狀。
介紹在 Flink 上做的優(yōu)化及一些自己的特色。包括跟 Pulsar,ClickHouse 等生態(tài)的結(jié)合。
介紹典型的業(yè)務(wù)場景。重點介紹視頻、直播等 App 打點數(shù)據(jù)要通過 Flink 進(jìn)行實時 ETL 之后落到 Hive 里。在此過程中我們解決了打點數(shù)據(jù)的自動化接入、自動切分,不同 topic 相互隔離,端到端 Exactly once,根據(jù) Event time 來保證 Hive partition 寫完整并創(chuàng)建 meta 等問題。
介紹 Flink 對業(yè)務(wù)帶來的效率上的提升。APP 上的功能每天都在進(jìn)行 ABTest,傳統(tǒng)走批處理的方法計算資源消耗多,而且時效性太差。通過將原先批處理的鏈路改造為用 Flink 做實時的計算,實現(xiàn)了流批一體,大大的提高了 ABTest 的效率,并且節(jié)省了資源。
Flink 實時計算在微博的應(yīng)用
曹富強(qiáng) | 微博機(jī)器學(xué)習(xí)研發(fā)中心數(shù)據(jù)計算負(fù)責(zé)人,高級系統(tǒng)工程師基于 Flink 搭建的微博實時計算平臺
微博實時數(shù)倉的搭建和應(yīng)用
Flink 在機(jī)器學(xué)習(xí)的應(yīng)用及平臺化?
批流一體 Flink?SQL
騰訊游戲?qū)崟r計算應(yīng)用平臺建設(shè)實踐
許振文 | 騰訊游戲增值服務(wù)部數(shù)據(jù)中心后臺開發(fā)組組長現(xiàn)在網(wǎng)絡(luò)游戲市場規(guī)模已經(jīng)達(dá)到數(shù)百億美元的量級,在大數(shù)據(jù)和微服務(wù)技術(shù)的浪潮中,如何通過數(shù)據(jù)化營銷來優(yōu)化游戲運營??本議題將介紹針對這一應(yīng)用趨勢而構(gòu)建的騰訊游戲數(shù)據(jù)營銷服務(wù)開發(fā)平臺,講述如何將大數(shù)據(jù)和微服務(wù)進(jìn)行合理的拆分,以及通過對這些能力合理有效的組織和架構(gòu)來為游戲業(yè)務(wù)提供多樣化的數(shù)據(jù)營銷服務(wù)。在內(nèi)部如何根據(jù)游戲業(yè)務(wù)數(shù)據(jù)化運營場景實踐落地大規(guī)模的 Flink、Kafka、ServiceMesh 等技術(shù)。為大家揭示迄今為止數(shù)據(jù)與游戲結(jié)合的豐富技術(shù)落地場景,以及游戲領(lǐng)域數(shù)據(jù)技術(shù)基礎(chǔ)設(shè)施和技術(shù)平臺架構(gòu),并與大家探討未來數(shù)據(jù)技術(shù)與游戲結(jié)合的更多可能性。知乎的 Flink 數(shù)據(jù)集成平臺建設(shè)實踐
孫曉光 | 知乎技術(shù)平臺負(fù)責(zé)人知乎基于 Sqoop 搭建了自己的離線數(shù)據(jù)集成平臺,在過往的使用過程中受限于 Sqoop 架構(gòu)的限制和社區(qū)不夠活躍的狀態(tài),許多平臺能力和體驗的改進(jìn)難以實現(xiàn)。Flink 作為新一代的分布式計算引擎,擁有非常積極活躍的用戶社區(qū)和開發(fā)者生態(tài)。Flink 豐富成熟的數(shù)據(jù)源支持和靈活的開發(fā)能力是知乎下一代數(shù)據(jù)集成平臺的理想基座。本次主題將分享知乎以 Flink 為基礎(chǔ)打造的通用數(shù)據(jù)集成平臺,打通知乎內(nèi)部各項數(shù)據(jù)資產(chǎn)。基于 Flink 和 LogMiner 的 Oracle CDC 實踐
崔星燦 | Apache Flink Committer,Wealthsimple 軟件工程師作為一家金融科技公司,Wealthsimple 長期依賴 Oracle General Ledger 存儲用戶交易等賬目數(shù)據(jù)。為了支持賬戶余額及金融產(chǎn)品持倉等相關(guān)業(yè)務(wù),賬簿團(tuán)隊需要從 Oracle 中持續(xù)導(dǎo)出最新入賬數(shù)據(jù)進(jìn)行核算?,F(xiàn)有基于 SQL 輪詢的數(shù)據(jù)獲取方式存在著延遲較高、無法檢測數(shù)據(jù)更新等弊端,為此團(tuán)隊決定采用 Change Data Capture(CDC)替換當(dāng)前方案。實踐過程中,我們借助 Oracle LogMiner 和 Flashback Query 實現(xiàn)了基本的數(shù)據(jù)捕獲邏輯,并將其嵌入到 Flink Source Connector 中。同時,為了保證端到端的精確一次語義,我們基于 XA Transaction 完成了一個支持兩階段提交的 Flink JDBC Sink Connector。本次演講內(nèi)容將會涵蓋使用 LogMiner 和 Flink 捕獲 Oracle 數(shù)據(jù)改動的基礎(chǔ)知識,以及團(tuán)隊在上述項目初期的探索與思考。Flink SQL 在云音樂的產(chǎn)品化實踐
蔣文偉 | 杭州網(wǎng)易云音樂數(shù)據(jù)智能部資深數(shù)據(jù)平臺開發(fā)工程師SQL 作為優(yōu)秀的數(shù)據(jù)處理語言被廣泛使用,但原生的 Flink SQL 在實際使用過程中往往會遇到無法滿足業(yè)務(wù)的情況,本次主題將介紹云音樂為解決這些問題而進(jìn)行的工作。主要分享內(nèi)容為:功能擴(kuò)展與封裝,建立了支持模塊化與組件化的 Notebook 開發(fā)環(huán)境。
性能調(diào)優(yōu),解決業(yè)務(wù)實際場景中遇到的讀寫方面瓶頸。
強(qiáng)化運維監(jiān)控,建立自己的智能診斷體系。
分享內(nèi)部案例。
Apache Flink 在京東的實踐與優(yōu)化
付海濤 | 京東高級技術(shù)專家京東于2018-開始基于 Flink+K8s 深入打造高性能、穩(wěn)定、可靠、易用的實時計算平臺,支撐了京東內(nèi)部多條業(yè)務(wù)線平穩(wěn)度過618、雙11多次大促。本次講演將分享京東 Flink 在實踐過程中遇到的問題、挑戰(zhàn)和解決方案,對社區(qū)版 Flink 所做的定制和優(yōu)化,以及未來的展望和規(guī)劃。Flink 在有贊的實踐和應(yīng)用
沈磊 | Apache Flink Contributor,有贊數(shù)據(jù)研發(fā)本次分享主要講解有贊 Flink 基于 K8S 容器化改造的實踐化經(jīng)驗。在 Flink SQL 方面,也會分享在 Flink SQL 的實踐,如高可用 HBase、無密 MySQL Connector 實踐,Flink SQL 與 ClickHouse 集成,以及支持 checkpoint 作為狀態(tài)恢復(fù)等。最后會分享 Flink Jar 和 SQL 任務(wù)血緣元數(shù)據(jù)自動化采集經(jīng)驗分享,通過任務(wù)元數(shù)據(jù)信息,幫助業(yè)務(wù)方更好的管理和維護(hù)自己的實時任務(wù)。Flink 在58同城應(yīng)用與實踐
馮海濤 | 58同城大數(shù)據(jù)部門架構(gòu)師,實時計算平臺負(fù)責(zé)人58實時計算平臺簡介???
Flink 在58的業(yè)務(wù)實踐?? ??
平臺化建設(shè)? ??
未來規(guī)劃
基于 Flink 的 PB 級數(shù)據(jù)即席查詢實踐
蘇軍 | 360政企安全集團(tuán)大數(shù)據(jù)開發(fā)工程師劉佳 | 360政企安全集團(tuán)大數(shù)據(jù)開發(fā)工程師為滿足私有云部署下,使用有限資源對 PB 級機(jī)器數(shù)據(jù)進(jìn)行秒級即席查詢,進(jìn)行安全分析的需求,360 本地安全大腦利用機(jī)器數(shù)據(jù)的高度重復(fù)性、查詢的規(guī)律性、以及命中數(shù)據(jù)比例低的特點,設(shè)計并實現(xiàn)了“Blink + ORC 文件存儲 + 文件索引”的查詢方案。方案通過索引機(jī)制,把只占原始 ORC 文件大小的 1/100,000 的 ORC 各種有效的統(tǒng)計信息(min/max、字典表、bloom filter)持久化進(jìn)外部數(shù)據(jù)庫,并引入Space Filling Curve算法對多列數(shù)據(jù)進(jìn)行排序來提升多列數(shù)據(jù)的有序性,大幅度減少需要進(jìn)入 Blink 的 ORC 數(shù)據(jù)規(guī)模,同時在 Blink SQL 中進(jìn)行對 ORC 的查詢優(yōu)化。好未來批流融合實時平臺在教育行業(yè)的實踐
毛祥溢 | 好未來資深數(shù)據(jù)平臺工程師好未來實時數(shù)據(jù)分析現(xiàn)狀
好未來實時續(xù)報數(shù)倉建設(shè)
好未來實時數(shù)據(jù)分析平臺
展望與規(guī)劃
網(wǎng)易游戲基于 Flink 的流式 ETL 建設(shè)
林小鉑 | Apache Flink Contributor,網(wǎng)易游戲資深開發(fā)工程師流式 ETL 是實時計算中最為基礎(chǔ)的應(yīng)用,而在網(wǎng)易游戲,由于游戲業(yè)務(wù)迭代快導(dǎo)致數(shù)據(jù) Schema 變更頻繁,所以將復(fù)雜的計算延后到數(shù)據(jù)倉庫計算的 ELT 是更為常用的模式。建設(shè)流式 ELT 主要的挑戰(zhàn)是讓用戶無感知地平滑遷移到流式 ELT,其中包括 Python ?UDF、HDFS 寫入優(yōu)化及異常處理實踐。網(wǎng)易游戲大數(shù)據(jù)平臺建設(shè)的早期建立了基于 Hadoop Streaming + Python 腳本的離線 ELT 框架,因此在 2018 -建立基于 Flink 的流式 ELT 時首要任務(wù)是提供 Python UDF,綜合考慮后實現(xiàn)了一套基于 Jython 的 Python UDF 框架。流式 ELT 的瓶頸通常在 HDFS,因此流式 ELT 主要從兩個途徑優(yōu)化 HDFS 寫入:一是通過數(shù)據(jù)流分區(qū)令每個 sink subtask 接收盡量少的分區(qū)的數(shù)據(jù),從而減少打開的文件數(shù);二是通過以每個數(shù)據(jù)分區(qū)只打開一個文件并不斷 append 的形式來寫入,來減少文件總數(shù)和 RPC 數(shù)(需配合每次 checkpoint 時同步文件長度機(jī)制和取消文件前綴,有分鐘級別的臟讀風(fēng)險)。在異常處理方面,提供基于 SideOutput 的錯誤流來分類保存不同的錯誤碼的數(shù)據(jù)(比如遲到事件或 UDF 異常),另外使用基于 State 的 Accumulator 來記錄消息的流向,并采集到 ELK 做可視化監(jiān)控。Flink 在小米的平臺化實踐
王加勝 | 小米高級軟件工程師從2019年開始接入,Flink 在小米支撐了越來越多的業(yè)務(wù),包括信息流推薦、商業(yè)廣告、小米金融等重要業(yè)務(wù),目前運行作業(yè)數(shù)已經(jīng)達(dá)到上千個,極大地推動了計算的實時化,提升了數(shù)據(jù)的價值。隨著應(yīng)用規(guī)模的擴(kuò)大,我們也遇到了越來越多的挑戰(zhàn)和問題,包括穩(wěn)定性、易用性、運維支持方面等等。本次分享主要從如下幾個方面進(jìn)行了介紹,包括 Flink SQL 平臺化的思考與實踐、遇到的業(yè)務(wù)穩(wěn)定性問題以及解決思路、以及我們在提升問題排查和業(yè)務(wù)支持效率等方面做的工作。愛奇藝實時大數(shù)據(jù)生態(tài)體系的演進(jìn)
葉煒晨 | 愛奇藝技術(shù)經(jīng)理,實時大數(shù)據(jù)相關(guān)業(yè)務(wù)負(fù)責(zé)人近年來,隨著信息流推薦、在線效果廣告、實時報表和實時運營等新業(yè)務(wù)場景的出現(xiàn),實時大數(shù)據(jù)成了大數(shù)據(jù)領(lǐng)域最重要的發(fā)展方向之一。本次分享介紹了愛奇藝大數(shù)據(jù)團(tuán)隊在基于 Flink 的實時數(shù)據(jù)生產(chǎn)分發(fā)、實時數(shù)倉建設(shè)、流數(shù)據(jù)服務(wù)、流批一體等領(lǐng)域的實踐和演進(jìn)過程,以及相關(guān)的一些體系化思考。Flink 在螞蟻搜索千級業(yè)務(wù)場景中的應(yīng)用實踐
李巖 |?螞蟻集團(tuán)搜索數(shù)據(jù)技術(shù)團(tuán)隊高級技術(shù)專家在螞蟻集團(tuán)我們服務(wù)著支付、數(shù)金、保險以及廣告等多元化搜索場景,為滿足不同場景在數(shù)據(jù)量、復(fù)雜度以及延遲性等指標(biāo)上差異化需求,我們以 Flink 為核心構(gòu)建了一套搜索數(shù)據(jù)增全量一體化處理平臺。本次分享主要介紹平臺建設(shè)的應(yīng)用實踐以及關(guān)鍵技術(shù)點,具體如下:平臺背景與技術(shù)挑戰(zhàn)
支持中間態(tài)共享的增全量一體化架構(gòu)
全量計算裁剪技術(shù)
多業(yè)務(wù)資源共享實現(xiàn)
動態(tài)長度窗口算子
大比例擴(kuò)散場景應(yīng)對
字節(jié)跳動基于 Flink 的 MQ-Hive?實時數(shù)據(jù)集成
李暢 | 字節(jié)跳動數(shù)據(jù)平臺大數(shù)據(jù)高級工程師數(shù)據(jù)集成的挑戰(zhàn)
現(xiàn)有解決方案及痛點
基于 Flink 的 MQ-Hive 解決方案
未來展望
Flink 實時計算在小紅書幾個場景的應(yīng)用
欒艷明 | 小紅書實時數(shù)據(jù)平臺工程師分享小紅書在推薦算法、實時數(shù)倉、風(fēng)控、數(shù)據(jù)同步等場景遇到的問題和解決辦法,在此過程中我們迭代出一個可用的 SQL 平臺,拆解該平臺是如何服務(wù)公司內(nèi)其他用戶迭代業(yè)務(wù)的以及后續(xù)我們面臨的挑戰(zhàn)。貝殼的實時計算演進(jìn)之路
劉力云 | 貝殼找房大數(shù)據(jù)平臺實時計算負(fù)責(zé)人主要介紹貝殼實時計算平臺的構(gòu)建、實時數(shù)倉的落地,以及面向事件驅(qū)動場景的通用平臺建設(shè)。貝殼實時計算緊跟業(yè)界發(fā)展,為公司各業(yè)務(wù)線的實時計算相關(guān)各種場景提供了有力的支持。實時計算平臺建設(shè):為滿足公司各種業(yè)務(wù)方實時計算的需求, 我們構(gòu)建了功能完善的實時計算平臺 Hermes。平臺支持模板任務(wù)、場景任務(wù)以及自定義任務(wù)的開發(fā),提供了完善的管理和監(jiān)控,保障了任務(wù)的穩(wěn)定、高效運行。
實時數(shù)倉落地:隨著實時計算平臺功能的不斷完善,使得實時數(shù)倉建設(shè)成為了可能。我們構(gòu)建了完善的開發(fā)規(guī)范,提供了豐富的實時數(shù)據(jù)模型及構(gòu)建能力,目前已經(jīng)應(yīng)用公司的各種實時指標(biāo)、實時大屏等業(yè)務(wù)場景。
實時事件處理平臺建設(shè):為了滿足業(yè)務(wù)方對線上用戶行為的實時響應(yīng)的需求,基于流計算的 Pandora 事件處理平臺應(yīng)運而生。平臺將用戶行為標(biāo)準(zhǔn)化,提供了事件定義和管理、功能完善的規(guī)則引擎、靈活方便的動作觸發(fā)等能力,簡化了業(yè)務(wù)開發(fā)流程,滿足了業(yè)務(wù)方對用戶行為實時響應(yīng)的需求。
未來發(fā)展方向:貝殼的未來實時計算會緊跟社區(qū)發(fā)展潮流,繼續(xù)做好實時計算相關(guān)基礎(chǔ)能力的建設(shè),在流批一體化、事件驅(qū)動等方向繼續(xù)努力。
以上為 Flink?Forward Asia 2020 在線峰會行業(yè)實踐節(jié)選,了解更多大會詳情及大會預(yù)約可點擊「閱讀原文」。12月13日,全球 38+ 一線廠商,70+ 優(yōu)質(zhì)議題,我們在 Flink Forward Asia 在線峰會等你~
總結(jié)
以上是生活随笔為你收集整理的flink集成springboot案例_Flink从流处理到流批一体的19个最佳实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电瓶车电池多少钱啊?
- 下一篇: rtklib 天线相位中心_基于传输线匹