日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

ApacheFlink简介

發(fā)布時(shí)間:2025/7/25 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ApacheFlink简介 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

對(duì)無(wú)界數(shù)據(jù)集的連續(xù)處理

在我們?cè)敿?xì)介紹Flink之前,讓我們從更高的層面上回顧處理數(shù)據(jù)時(shí)可能遇到的數(shù)據(jù)集的類型以及您可以選擇處理的執(zhí)行模型的類型。這兩個(gè)想法經(jīng)常被混淆,清楚地區(qū)分它們是有用的。

首先,兩種類型的數(shù)據(jù)集

  • 無(wú)界:連續(xù)追加的無(wú)限數(shù)據(jù)集
  • 有界:有限的,不變的數(shù)據(jù)集

傳統(tǒng)上被認(rèn)為是有限或“批量”數(shù)據(jù)的許多實(shí)際數(shù)據(jù)集實(shí)際上是無(wú)界數(shù)據(jù)集。無(wú)論數(shù)據(jù)是存儲(chǔ)在HDFS上的目錄序列還是像Apache Kafka這樣的基于日志的系統(tǒng)中,都是如此。

無(wú)界數(shù)據(jù)集的例子包括但不限于:

  • 最終用戶與移動(dòng)或Web應(yīng)用程序進(jìn)行交互
  • 物理傳感器提供測(cè)量
  • 金融市場(chǎng)
  • 機(jī)器日志數(shù)據(jù)

其次,有兩種執(zhí)行模式

  • 流式傳輸:只要數(shù)據(jù)正在生成,就會(huì)連續(xù)執(zhí)行的處理
  • 批處理:在有限的時(shí)間內(nèi)執(zhí)行處理并運(yùn)行完成,完成后釋放計(jì)算資源

盡管不一定是最佳的,但可以用任何一種類型的執(zhí)行模型來(lái)處理任一類型的數(shù)據(jù)集。例如,盡管在窗口化,狀態(tài)管理和無(wú)序數(shù)據(jù)方面存在潛在的問(wèn)題,批處理執(zhí)行早已應(yīng)用于無(wú)界數(shù)據(jù)集。

Flink依賴流式執(zhí)行模型,這是一個(gè)直觀的適合處理無(wú)界數(shù)據(jù)集的模型:流式執(zhí)行是連續(xù)處理連續(xù)產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)集類型與執(zhí)行模型類型之間的對(duì)齊在準(zhǔn)確性和性能方面提供了許多優(yōu)點(diǎn)。

Flink是一個(gè)分布式流處理的開(kāi)源框架:

  • 提供準(zhǔn)確的結(jié)果,即使在無(wú)序或遲到數(shù)據(jù)的情況下也是如此
  • 是有狀態(tài)和容錯(cuò)的,可以在保持一次性應(yīng)用程序狀態(tài)的同時(shí)無(wú)縫地從故障中恢復(fù)
  • 大規(guī)模執(zhí)行,在數(shù)千個(gè)節(jié)點(diǎn)上運(yùn)行,具有非常好的吞吐量和延遲特性

此前,我們討論了將數(shù)據(jù)集的類型(有界還是無(wú)界)與執(zhí)行模型的類型(批量與流媒體)進(jìn)行對(duì)齊。下面列出的許多Flink功能 - 狀態(tài)管理,無(wú)序數(shù)據(jù)的處理,靈活的窗口 - 對(duì)于在無(wú)界數(shù)據(jù)集上計(jì)算精確的結(jié)果非常重要,并且由Flink的流式執(zhí)行模型來(lái)實(shí)現(xiàn)。

  • Flink保證有狀態(tài)計(jì)算的一次語(yǔ)義。“有狀態(tài)的”意味著應(yīng)用程序可以維護(hù)一段時(shí)間內(nèi)已經(jīng)處理的數(shù)據(jù)的匯總或匯總,并且Flink的檢查點(diǎn)設(shè)置機(jī)制在發(fā)生故障時(shí)確保應(yīng)用程序狀態(tài)的一次語(yǔ)義。

  • Flink支持流處理和窗口事件時(shí)間語(yǔ)義。事件時(shí)間可以輕松計(jì)算事件到達(dá)順序不正確,事件可能延遲到達(dá)的流的精確結(jié)果。

  • 除了數(shù)據(jù)驅(qū)動(dòng)的窗口,Flink還支持基于時(shí)間,計(jì)數(shù)或會(huì)話的靈活窗口。Windows可以通過(guò)靈活的觸發(fā)條件進(jìn)行定制,以支持復(fù)雜的流模式。Flink的窗口可以模擬數(shù)據(jù)創(chuàng)建環(huán)境的實(shí)際情況。

  • Flink的容錯(cuò)功能是輕量級(jí)的,可以讓系統(tǒng)保持高吞吐率,同時(shí)提供一次性一致性保證。Flink從零數(shù)據(jù)丟失的故障恢復(fù),而可靠性和延遲之間的折衷可以忽略不計(jì)。

  • Flink能夠提供高吞吐量和低延遲(快速處理大量數(shù)據(jù))。下面的圖表顯示了Apache Flink和Apache Storm的性能,完成了需要流式數(shù)據(jù)混洗的分布式項(xiàng)目計(jì)數(shù)任務(wù)。

  • Flink的保存點(diǎn)提供了一個(gè)狀態(tài)版本管理機(jī)制,可以更新應(yīng)用程序或重新處理歷史數(shù)據(jù),而且不會(huì)丟失狀態(tài),停機(jī)時(shí)間最短。

  • Flink設(shè)計(jì)用于在數(shù)千個(gè)節(jié)點(diǎn)的大型集群上運(yùn)行,除了獨(dú)立集群模式之外,Flink還提供對(duì)YARN和Mesos的支持。

如果您已經(jīng)查看過(guò)Flink的文檔,您可能已經(jīng)注意到用于處理無(wú)界數(shù)據(jù)的DataStream API以及用于處理有界數(shù)據(jù)的DataSet API。

在本文前面,我們介紹了流式執(zhí)行模型(“連續(xù)執(zhí)行的處理,一次一個(gè)事件”),直觀地適用于無(wú)界數(shù)據(jù)集。那么有界數(shù)據(jù)集如何與流處理范例相關(guān)?

在Flink的情況下,這種關(guān)系是相當(dāng)自然的。一個(gè)有界數(shù)據(jù)集可以簡(jiǎn)單地看作一個(gè)無(wú)界特例,所以我們可以將上面所有的流式概念應(yīng)用到有限數(shù)據(jù)上。

這正是Flink的DataSet API的行為。有界數(shù)據(jù)集在Flink內(nèi)部作為“有限流”進(jìn)行處理,Flink如何管理有界數(shù)據(jù)集和無(wú)界數(shù)據(jù)集只有一些細(xì)微差異。

所以可以使用Flink來(lái)處理有界數(shù)據(jù)和無(wú)界數(shù)據(jù),這兩個(gè)API在相同的分布式流式執(zhí)行引擎上運(yùn)行 - 一個(gè)簡(jiǎn)單而強(qiáng)大的體系結(jié)構(gòu)。

部署模式

Flink可以運(yùn)行在云環(huán)境中,也可以在內(nèi)部環(huán)境中運(yùn)行,也可以運(yùn)行在獨(dú)立的集群上,也可以運(yùn)行在YARN或Mesos管理的集群上。

運(yùn)行

Flink的核心是分布式流式數(shù)據(jù)流引擎,意味著數(shù)據(jù)一次處理而不是一系列批處理,這是一個(gè)重要的區(qū)別,因?yàn)檫@是Flink的許多彈性和性能特征.

轉(zhuǎn)載于:https://www.cnblogs.com/wzlbigdata/p/8409601.html

總結(jié)

以上是生活随笔為你收集整理的ApacheFlink简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。