常用的数据交换格式有哪些_大数据架构之数据交换平台
首先輕松一下:
學(xué)校門前,一名家長趁攤主正忙,把一瓶奶茶暗暗塞給身后的兒子,舉著另一瓶奶茶付完錢正要走,身后的兒子嚷道:“兩瓶,我這還有一瓶!”攤主皺皺眉,很快笑了:“你媽媽這一瓶蓋上有獎,那一瓶是獎品!”孩子進校后,家長紅著臉要補錢,攤主對她擺擺手道:“票子是小事,孩子是大事……
Exchangis是一款輕量級的數(shù)據(jù)交換服務(wù)平臺,支持結(jié)構(gòu)化、半結(jié)構(gòu)化以及無結(jié)構(gòu)化的存儲系統(tǒng)之間的數(shù)據(jù)同步。平臺將數(shù)據(jù)交換流程進行拆分,抽象出數(shù)據(jù)源,交換任務(wù),交換作業(yè)等概念,達到可視化管理數(shù)據(jù)同步流程的目的。而在實際數(shù)據(jù)傳輸過程中可集成多個傳輸組件特性,做到功能橫向擴展。
使用接入
界面接入
主要界面介紹
1.數(shù)據(jù)源管理-數(shù)據(jù)源
分類列舉了用戶創(chuàng)建的所有數(shù)據(jù)源,提供常用的搜索,編輯,刪除方法,再點擊 編輯 出現(xiàn)的彈窗中可以對數(shù)據(jù)源進行 連接性測試 和 對外權(quán)限設(shè)置。
2.數(shù)據(jù)源管理-模板管理
管理數(shù)據(jù)源的連接信息,將這些信息生成模板。例如IP地址,端口,集群配置參數(shù),認證方式等信息,根據(jù)不同數(shù)據(jù)源類型和環(huán)境分開存儲成模板,創(chuàng)建數(shù)據(jù)源時可以復(fù)用這些已有的連接模板。
3.任務(wù)配置
以項目為集合,管理用戶配置的任務(wù),用戶可以組合現(xiàn)有的數(shù)據(jù)源創(chuàng)建交換任務(wù),創(chuàng)建的任務(wù)將掛載到對應(yīng)的項目下。同時還提供任務(wù) 定時執(zhí)行 和 歷史數(shù)據(jù)重跑 等功能。
4.任務(wù)作業(yè)
列舉了用戶相關(guān)任務(wù)下所有的執(zhí)行作業(yè),包括作業(yè)調(diào)用時間、完成時間、執(zhí)行參數(shù)、執(zhí)行節(jié)點以及完成狀態(tài),可以點擊詳細日志查看具體的執(zhí)行細節(jié)。
5.權(quán)限組管理
默認用戶創(chuàng)建一個項目時自動生成對應(yīng)的一個權(quán)限組,用戶可以通過增刪成員的方式管理自己創(chuàng)建的項目權(quán)限組,同一權(quán)限組內(nèi)的用戶可以做到共享數(shù)據(jù)源。
數(shù)據(jù)源模塊
1.創(chuàng)建數(shù)據(jù)源模板
數(shù)據(jù)源模板包含各種形式的連接參數(shù),持有模板可以快速創(chuàng)建數(shù)據(jù)源。進入數(shù)據(jù)源管理-模板管理界面,點擊+新建模板,選擇要創(chuàng)建的模板類型:
- 模板上一般可以選擇認證方式,使用不同認證方式的模板創(chuàng)建數(shù)據(jù)源時,要求輸入的認證信息不一樣;
- 普通用戶可以編輯自己創(chuàng)建的模板,可以瀏覽管理員創(chuàng)建的模板,但不可以編輯,暫時不同用戶之間不能共享模板。
各種類型模板的填寫樣例如下:
1.1 HIVE、HDFS連接模板
HIVE連接模板的必填項目:
Metastore地址, HiveMetastore地址,格式形如: thrift://path。HDFS地址,格式形如: hdfs://path。Hadoop配置項,包括namenode的地址,rpc端口等Hadoop客戶端連接配置。認證方式,有kerberos、LDAP和無權(quán)限三個選項,kerberos中realm為必填項HDFS連接模板的內(nèi)容和HIVE模板相似
1.2 SFTP連接模版
SFTP連接模版的必填項目:
SFTP HOST地址SFTP PORT端口號認證方式,默認為用戶密碼認證,keyfile為密鑰文件驗證1.3 ElasticSearch連接模版
ElasticSearch連接模版的必填項目:
Elastic Url (ElasticSerach連接地址),可以填寫多個認證方式,默認為Basic Authentication1.4 MySQL連接模版
TDSQL連接模版的必填項目:
MySQL HST地址MySQL PORT端口號MySQL的連接參數(shù),例如:useUnicode, characterEncoding, allowMultiQuery2.創(chuàng)建數(shù)據(jù)源
點擊 數(shù)據(jù)源管理界面 上方的 新增數(shù)據(jù)源,選擇對應(yīng)的數(shù)據(jù)源類型,目前支持的類型有HIVE,HDFS, SFTP,ElasticSearch和MySQL, 選擇后出現(xiàn)彈窗,開始新建數(shù)據(jù)源。其中必須要填寫的項目有 數(shù)據(jù)源名稱 和 數(shù)據(jù)源屬主,以及 連接模板:
- 模板這里可以直接點擊創(chuàng)建模板打開新標簽頁去創(chuàng)建對應(yīng)的連接模板,創(chuàng)建完成后再點擊刷新按鈕加載新模板。
- 數(shù)據(jù)源與項目存在綁定關(guān)系,一個數(shù)據(jù)源只能綁定一個項目,項目的成員可以瀏覽項目下綁定的所有數(shù)據(jù)源, 同時數(shù)據(jù)源創(chuàng)建者可以指定其對外權(quán)限,設(shè)置項目組其他成員對該數(shù)據(jù)源的編輯,使用,讀取以及寫入權(quán)限。
- 最后填寫完必要信息后,點擊連接測試,檢驗數(shù)據(jù)源的可用性。
任務(wù)配置模塊
1.創(chuàng)建項目/權(quán)限組
項目是Exchangis劃分數(shù)據(jù)權(quán)限的基礎(chǔ),數(shù)據(jù)交換任務(wù)都掛載在項目上,數(shù)據(jù)源、用戶也和項目有綁定關(guān)聯(lián)關(guān)系,點擊任務(wù)配置界面左側(cè)的+ 新建可快速創(chuàng)建。
2.配置數(shù)據(jù)交換任務(wù)
選中對應(yīng)要添加任務(wù)的項目后,點擊 增加任務(wù) 按鈕,彈出任務(wù)配置窗口,選擇要使用的傳輸引擎。
目前Exchangis底層完全集成DataX,部分支持SQOOP,選擇引擎要注意以下幾點:
- 是否已經(jīng)安裝了引擎依賴的環(huán)境,DataX默認使用服務(wù)的JAVA環(huán)境,SQOOP則依賴了Hive和HDFS環(huán)境.
- 選用SQOOP引擎執(zhí)行任務(wù),由于依賴的是具體執(zhí)行機器的環(huán)境,任務(wù)配置的Hive/HDFS數(shù)據(jù)源相關(guān)的參數(shù)信息會被具體環(huán)境的覆蓋,數(shù)據(jù)源的認證信息也會失效。
選擇成功后,開始如下步驟的操作:
2.1 選擇數(shù)據(jù)來源和數(shù)據(jù)目的
數(shù)據(jù)交換任務(wù)的主要工作是在不同數(shù)據(jù)源之間傳輸數(shù)據(jù),所以需要用戶選擇不同數(shù)據(jù)源和配置其具體的數(shù)據(jù)信息,數(shù)據(jù)信息就比如HIVE數(shù)據(jù)源的 庫、表以及表分區(qū),如下圖:
此外除了數(shù)據(jù)源管理界面里面創(chuàng)建的數(shù)據(jù)源外,用戶在配置交換任務(wù)的時候還可以選擇一種local_fs數(shù)據(jù)源,代表執(zhí)行任務(wù)的機器節(jié)點的本地文件系統(tǒng)(Linux):
在最開始選擇數(shù)據(jù)來源的時候,對于文件系統(tǒng)類的數(shù)據(jù)源可以選擇不同的數(shù)據(jù)交換方式,有兩種方式二進制和 記錄:
二進制方式下數(shù)據(jù)直接以流的形式傳輸,記錄方式下數(shù)據(jù)將被解碼并切割成多個記錄實體來傳遞,適用于結(jié)構(gòu)化數(shù)據(jù)庫。
2.2 配置時間占位符
在配置交換任務(wù)時候,用戶可以在一些配置項例如路徑或者分區(qū)值里面加入時間占位符,在任務(wù)執(zhí)行的時候,會用任務(wù)綁定的時間參數(shù)(默認是任務(wù)觸發(fā)時間)去替換這些占位符
支持的時間占位符有常見的:yyyyMMdd, yyyy-MM-dd,其他的具體含義見下表:
占位符含義例子run_date設(shè)置為當(dāng)前時間的前一天,格式為yyyyMMdd20200129run_date_std設(shè)置為當(dāng)前時間的前一天,格式為yyy-MM-dd2020-01-29run_month_begin設(shè)置為當(dāng)前時間所在月的第一天,格式為yyyyMMdd20200101run_month_begin_std設(shè)置為當(dāng)前時間所在月的第一天,格式為yyyy-MM-dd2020-01-01run_month_end設(shè)置為當(dāng)前時間所在月的最后一天,格式為yyyyMMdd20200131run_month_end_std設(shè)置為當(dāng)前時間所在月的最后一天,格式為yyyy-MM-dd20200131
2.3 字段映射
在對記錄類型的數(shù)據(jù)進行傳輸?shù)那闆r下,用戶可以組合源表字段和目標表字段的對應(yīng)關(guān)系,校驗源表字段的值是否符合要求,對源表的字段的值進行轉(zhuǎn)換:
2.4 速度控制
速度控制控制的是任務(wù)每秒全局傳輸數(shù)據(jù)的最大值,同時從字節(jié)和記錄兩個緯度進行限制;在速度控制選項卡下還可以控制并行數(shù)和最大使用內(nèi)存數(shù)。
2.5 基本信息
交換任務(wù)的基本信息應(yīng)包括如下幾點:
任務(wù)名稱、任務(wù)描述提醒人:任務(wù)失敗以及超時的時候提醒的關(guān)系人,多個關(guān)系人逗號分隔 【默認告警信息打在后臺日志中】定時:設(shè)置任務(wù)定時的corn表達式執(zhí)行用戶:設(shè)定的實際執(zhí)行任務(wù)的系統(tǒng)(Linux)用戶 【默認擁有同名的執(zhí)行用戶,其他需要管理員綁定授權(quán)】執(zhí)行節(jié)點:設(shè)定的實際執(zhí)行任務(wù)的服務(wù)節(jié)點列表 【公用默認服務(wù)節(jié)點,其他需要管理員綁定授權(quán)】超時時間:任務(wù)超時時間,單位秒同步方式:全量同步、增量同步,默認為全量同步,增量方式目前只支持對文件類數(shù)據(jù)源需要關(guān)注的點:
執(zhí)行用戶相當(dāng)于代理用戶,作用是限定權(quán)限,在任務(wù)執(zhí)行的過程中,會用執(zhí)行用戶去啟新進程和申請資源; 而對于數(shù)據(jù)源連接,如果數(shù)據(jù)源有認證信息,則以數(shù)據(jù)源認證信息為主,如果沒有,權(quán)限則會自動落到執(zhí)行用戶上(SQOOP引擎下HIVE/HDFS權(quán)限都落在執(zhí)行用戶上);3.配置后置處理器
Exchangis支持內(nèi)嵌基礎(chǔ)的處理代碼,目前界面僅對ElasticSearch相關(guān)任務(wù)提供入口。當(dāng)數(shù)據(jù)交換任務(wù)的目的端為ElasticSearch的時候,可以選擇使用后置處理器,后置處理器允許用戶以編寫代碼的方式對要寫入的記錄數(shù)據(jù)做更加定制化的處理操作:
在后置處理器代碼中,只可以讀取作業(yè)進程工作目錄下的文件,寫入操作以及網(wǎng)絡(luò)連接將被攔截禁止
任務(wù)作業(yè)模塊
1.查看作業(yè)日志
在任務(wù)配置頁面創(chuàng)建執(zhí)行任務(wù)后,可以在任務(wù)作業(yè)界面找到對應(yīng)的作業(yè),點擊詳細日志后拿到執(zhí)行端的日志,如果作業(yè)的狀態(tài)是執(zhí)行中則會對日志窗口持續(xù)刷新:
系統(tǒng)管理模塊
1.應(yīng)用用戶管理
在系統(tǒng)管理 - 用戶管理界面可以新增Exchangis平臺的應(yīng)用用戶,并授權(quán)用戶不同的角色,新用戶可以預(yù)設(shè)密碼:
對于單個用戶,可以綁定執(zhí)行(代理)用戶和執(zhí)行服務(wù)節(jié)點:
2.執(zhí)行(代理)用戶管理
單獨的界面維護系統(tǒng)內(nèi)的執(zhí)行(代理)用戶:
3.執(zhí)行節(jié)點管理
在執(zhí)行節(jié)點界面可以看到當(dāng)前集群存在的所有執(zhí)行節(jié)點,這些服務(wù)節(jié)點通過心跳的方式自動更新自己的信息,點擊對應(yīng)的節(jié)點的管理節(jié)點按鈕,進入如下界面:
在該界面可以允許管理員綁定關(guān)聯(lián)執(zhí)行(代理)用戶和執(zhí)行節(jié)點,關(guān)聯(lián)成功后,將會自動在節(jié)點機器上建立對應(yīng)的系統(tǒng)帳號(目前只支持Linux發(fā)行版的系統(tǒng))
總結(jié)
以上是生活随笔為你收集整理的常用的数据交换格式有哪些_大数据架构之数据交换平台的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python爬虫科研数据提取_pytho
- 下一篇: 如何让整个表格高度固定_财务预算太费精力