什么是 AWS Data Pipeline
AWS Data Pipeline 是一項 Web 服務,您可用于自動處理數(shù)據(jù)的移動和轉(zhuǎn)換。使用 AWS Data Pipeline,您可以定義數(shù)據(jù)驅(qū)動的工作流,這樣任務就可以依賴于前面任務的成功執(zhí)行。您可以定義數(shù)據(jù)轉(zhuǎn)換的參數(shù),AWS Data Pipeline 將實施您設置的邏輯。
AWS Data Pipeline 的以下組件協(xié)同工作來管理您的數(shù)據(jù):
-
管道定義?指定數(shù)據(jù)管理的業(yè)務邏輯。有關(guān)更多信息,請參閱管道定義文件語法。
-
管道通過創(chuàng)建 Amazon EC2 實例以執(zhí)行定義的工作活動,來計劃和運行任務。您將管道定義上傳到管道,然后激活管道。您可以編輯正在運行的管道的管道定義,并重新激活管道以使其生效。您可以停用管道,修改數(shù)據(jù)源,然后重新激活管道。完成使用管道后可以將其刪除。
-
Task Runner?將輪詢?nèi)蝿?#xff0c;然后執(zhí)行這些任務。例如,Task Runner 可以將日志文件復制到 Amazon S3,然后啟動 Amazon EMR 集群。Task Runner 已安裝,并將在管道定義所創(chuàng)建的資源上自動運行。您可以編寫自定義任務運行程序應用程序,也可以使用 AWS Data Pipeline 提供的 Task Runner 應用程序。有關(guān)更多信息,請參閱任務運行程序。
例如,您每天可使用 AWS Data Pipeline 將 Web 服務器的日志存檔到 Amazon Simple Storage Service (Amazon S3),然后每周對這些日志運行 Amazon EMR (Amazon EMR) 集群以生成流量報告。AWS Data Pipeline 計劃每日任務來復制數(shù)據(jù),并計劃每周任務來啟動 Amazon EMR 集群。AWS Data Pipeline 還確保 Amazon EMR 在等待最后一天的數(shù)據(jù)上傳到 Amazon S3 后,再開始其分析,即使存在不可預知的日志上傳延遲。
轉(zhuǎn)載于:https://www.cnblogs.com/cloudrivers/p/11258614.html
總結(jié)
以上是生活随笔為你收集整理的什么是 AWS Data Pipeline的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringBoot 多环境配置
- 下一篇: 数据结构与算法:动态数组(利用万能指针实