當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

2021年大数据Flink（十）：流处理相关概念

發(fā)布時間：2023/11/28 生活经验 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021年大数据Flink（十）：流处理相关概念小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

流處理相關(guān)概念

數(shù)據(jù)的時效性

???????流處理和批處理

???????流批一體API

DataStream API 支持批執(zhí)行模式

API

編程模型

???????流處理相關(guān)概念

數(shù)據(jù)的時效性

日常工作中，我們一般會先把數(shù)據(jù)存儲在表，然后對表的數(shù)據(jù)進行加工、分析。既然先存儲在表中，那就會涉及到時效性概念。

如果我們處理以年，月為單位的級別的數(shù)據(jù)處理，進行統(tǒng)計分析，個性化推薦，那么數(shù)據(jù)的的最新日期離當前有幾個甚至上月都沒有問題。但是如果我們處理的是以天為級別，或者一小時甚至更小粒度的數(shù)據(jù)處理，那么就要求數(shù)據(jù)的時效性更高了。比如：對網(wǎng)站的實時監(jiān)控、對異常日志的監(jiān)控，這些場景需要工作人員立即響應(yīng)，這樣的場景下，傳統(tǒng)的統(tǒng)一收集數(shù)據(jù)，再存到數(shù)據(jù)庫中，再取出來進行分析就無法滿足高時效性的需求了。

???????流處理和批處理

https://ci.apache.org/projects/flink/flink-docs-release-1.12/learn-flink/

- Batch Analytics，右邊是 Streaming Analytics。批量計算: 統(tǒng)一收集數(shù)據(jù)->存儲到DB->對數(shù)據(jù)進行批量處理，就是傳統(tǒng)意義上使用類似于 Map Reduce、Hive、Spark Batch 等，對作業(yè)進行分析、處理、生成離線報表

- Streaming Analytics 流式計算，顧名思義，就是對數(shù)據(jù)流進行處理，如使用流式分析引擎如 Storm，Flink 實時處理分析數(shù)據(jù)，應(yīng)用較多的場景如實時大屏、實時報表。

???????流批一體API

DataStream API 支持批執(zhí)行模式

Flink 的核心 API 最初是針對特定的場景設(shè)計的，盡管 Table API / SQL 針對流處理和批處理已經(jīng)實現(xiàn)了統(tǒng)一的 API，但當用戶使用較底層的 API 時，仍然需要在批處理（DataSet API）和流處理（DataStream API）這兩種不同的 API 之間進行選擇。鑒于批處理是流處理的一種特例，將這兩種 API 合并成統(tǒng)一的 API，有一些非常明顯的好處，比如：

可復(fù)用性：作業(yè)可以在流和批這兩種執(zhí)行模式之間自由地切換，而無需重寫任何代碼。因此，用戶可以復(fù)用同一個作業(yè)，來處理實時數(shù)據(jù)和歷史數(shù)據(jù)。
維護簡單：統(tǒng)一的 API 意味著流和批可以共用同一組 connector，維護同一套代碼，并能夠輕松地實現(xiàn)流批混合執(zhí)行，例如 backfilling 之類的場景。

考慮到這些優(yōu)點，社區(qū)已朝著流批統(tǒng)一的 DataStream API 邁出了第一步：支持高效的批處理（FLIP-134）。從長遠來看，這意味著 DataSet API 將被棄用（FLIP-131），其功能將被包含在 DataStream API 和 Table API / SQL 中。

API

Flink提供了多個層次的API供開發(fā)者使用，越往上抽象程度越高，使用起來越方便；越往下越底層，使用起來難度越大

注意：在Flink1.12時支持流批一體，DataSetAPI已經(jīng)不推薦使用了，所以課程中除了個別案例使用DataSet外，后續(xù)其他案例都會優(yōu)先使用DataStream流式API，既支持無界數(shù)據(jù)處理/流處理，也支持有界數(shù)據(jù)處理/批處理！當然Table&SQL-API會單獨學習

https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/batch/

https://developer.aliyun.com/article/780123?spm=a2c6h.12873581.0.0.1e3e46ccbYFFrC

https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/datastream_api.html

編程模型

Flink 應(yīng)用程序結(jié)構(gòu)主要包含三部分,Source/Transformation/Sink,如下圖所示：

總結(jié)

以上是生活随笔為你收集整理的2021年大数据Flink（十）：流处理相关概念的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2021年大数据Flink（九）：Fli
下一篇： 2021年大数据Flink（十一）：流批