阿帕奇光束
Apache Beam是一個開放源代碼統(tǒng)一模型,用于定義批處理和流數(shù)據(jù)并行處理管道。 使用一種開源的Beam SDK,您可以構(gòu)建一個定義管道的程序。 然后,該管道由Beam支持的分布式處理后端之一執(zhí)行,這些后端包括Apache Apex , Apache Flink , Apache Spark和Google Cloud Dataflow 。
Beam對于令人尷尬的并行數(shù)據(jù)處理任務(wù)特別有用,在該任務(wù)中,問題可以分解為許多較小的數(shù)據(jù)束,可以獨(dú)立和并行處理。 您還可以將Beam用于提取,轉(zhuǎn)換和加載(ETL)任務(wù)以及純數(shù)據(jù)集成。 這些任務(wù)對于在不同的存儲介質(zhì)和數(shù)據(jù)源之間移動數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)換為更理想的格式或?qū)?shù)據(jù)加載到新系統(tǒng)上非常有用。
Apache Beam管道運(yùn)行器
Beam Pipeline運(yùn)行器將您使用Beam程序定義的數(shù)據(jù)處理管道轉(zhuǎn)換為與您選擇的分布式處理后端兼容的API。 運(yùn)行Beam程序時,需要為要在其中執(zhí)行管道的后端指定適當(dāng)?shù)倪\(yùn)行程序。
Beam當(dāng)前支持與以下分布式處理后端一起使用的Runner:
- Apache Apex
- Apache Flink
- Apache Gearpump(正在孵化)
- 阿帕奇火花
- Google Cloud Dataflow
[1] https://beam.apache.org
翻譯自: https://www.javacodegeeks.com/2018/02/apache-beam.html
總結(jié)
- 上一篇: 手机格式化是什么意思(苹果手机格式化是什
- 下一篇: 苹果mac电脑软件下载(mac下载iph