StreamSets数据操作平台(数据移动及数据清洗强大工具)-第二篇
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/a337895179/article/details/79109061
收起
什么是StreamSets數(shù)據(jù)收集器?
StreamSets?數(shù)據(jù)收集器是一個(gè)輕量級(jí),強(qiáng)大的引擎,實(shí)時(shí)流數(shù)據(jù)。使用Data Collector在數(shù)據(jù)流中路由和處理數(shù)據(jù)。
要為Data Collector定義數(shù)據(jù)流,請(qǐng)配置管道。一個(gè)流水線由代表流水線起點(diǎn)和終點(diǎn)的階段以及您想要執(zhí)行的任何附加處理組成。配置管道后,單擊“開始”,“?數(shù)據(jù)收集器”開始工作。
Data Collector在數(shù)據(jù)到達(dá)原點(diǎn)時(shí)處理數(shù)據(jù),在不需要時(shí)靜靜地等待。您可以查看有關(guān)數(shù)據(jù)的實(shí)時(shí)統(tǒng)計(jì)信息,在數(shù)據(jù)通過管道時(shí)檢查數(shù)據(jù),或仔細(xì)查看數(shù)據(jù)快照。
我應(yīng)該如何使用Data Collector?
使用StreamSets?數(shù)據(jù)收集器就像一個(gè)管道的數(shù)據(jù)流。在整個(gè)企業(yè)數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)中,您都有需要移動(dòng),收集和處理到目的地的數(shù)據(jù)流。Data Collector提供流之間的關(guān)鍵連接。
為了解決您的采集需求,您可以使用單個(gè)Data Collector運(yùn)行一個(gè)或多個(gè)管道。或者,您可能會(huì)安裝一系列Data Collector來在您的企業(yè)數(shù)據(jù)拓?fù)渲袀鬏敂?shù)據(jù)。
這是如何工作的?
讓我們通過它...
安裝并啟動(dòng)Data Collector之后,使用?Data Collector?UI登錄并創(chuàng)建第一個(gè)管道。
你想要做什么?假設(shè)您想從目錄中讀取XML文件,并在將其移入HDFS之前刪除換行符。要做到這一點(diǎn),你需要從一個(gè)目錄原點(diǎn)階段開始,并將其配置為指向源文件目錄。(您也可以將舞臺(tái)歸檔文件處理完畢并將未完全處理的文件寫入單獨(dú)的目錄中供審閱。)
若要?jiǎng)h除換行符,請(qǐng)將目錄連接到表達(dá)式評(píng)估程序處理器,并將其配置為從記錄的最后一個(gè)字段中刪除換行符。
要使數(shù)據(jù)可用于HDFS,請(qǐng)將Expression Evaluator連接到Hadoop FS目標(biāo)階段。您可以將舞臺(tái)配置為將數(shù)據(jù)作為JSON對(duì)象編寫(盡管您也可以使用其他數(shù)據(jù)格式)。
您可以預(yù)覽數(shù)據(jù)以查看源數(shù)據(jù)如何在管道中移動(dòng),并注意到某些字段缺少數(shù)據(jù)。因此,您添加一個(gè)值替代品來替換這些字段中的空值。
現(xiàn)在數(shù)據(jù)流已經(jīng)完成了,您可以配置管道錯(cuò)誤記錄處理,將錯(cuò)誤記錄寫入文件,創(chuàng)建數(shù)據(jù)偏移警報(bào)以通知您字段名稱更改的時(shí)間,并配置電子郵件警報(bào)以通知您管道會(huì)生成超過100個(gè)錯(cuò)誤記錄。然后,啟動(dòng)管道,Data Collector開始工作。
該數(shù)據(jù)采集器進(jìn)入監(jiān)控模式,并立即顯示摘要和錯(cuò)誤統(tǒng)計(jì)。為了更仔細(xì)地看看這個(gè)活動(dòng),你可以對(duì)流水線做一個(gè)快照,這樣你就可以檢查一組數(shù)據(jù)是如何通過流水線的。您會(huì)看到一些意外的數(shù)據(jù),因此您需要為兩個(gè)階段之間的鏈接創(chuàng)建數(shù)據(jù)規(guī)則,以收集有關(guān)類似數(shù)據(jù)的信息,并設(shè)置一個(gè)警報(bào),以便在數(shù)字太高時(shí)通知您。
那些寫入文件的錯(cuò)誤記錄呢?他們保存錯(cuò)誤的細(xì)節(jié),所以你可以創(chuàng)建一個(gè)錯(cuò)誤管道重新處理該數(shù)據(jù)。Et瞧!
StreamSets?數(shù)據(jù)收集器是一個(gè)強(qiáng)大的工具,但我們正在盡可能簡(jiǎn)單的使用它。所以試試看,點(diǎn)擊幫助圖標(biāo)獲取信息,如果您需要幫助,請(qǐng)聯(lián)系我們。
登錄并創(chuàng)建管道
啟動(dòng)Data Collector后,您可以登錄到Data Collector并創(chuàng)建第一個(gè)管道。
您可以自定義用于訪問Data Collector的地址和登錄名。此過程使用默認(rèn)設(shè)置。
1.?要使用用戶界面訪問數(shù)據(jù)收集器,請(qǐng)?jiān)跒g覽器的地址欄中輸入以下URL:
HTTP:// <主機(jī)名>:18630 /
2.?如果更改了Data Collector配置文件中的默認(rèn)Data Collector端口號(hào),$ SDC_CONF / sdc.properties,請(qǐng)使用該號(hào)碼。
4.?在“?登錄”對(duì)話框中,使用以下憑據(jù)登錄:管理?/?管理。
如果您創(chuàng)建了自定義登錄,請(qǐng)隨時(shí)使用它。
5.?在“?入門”頁(yè)面上,單擊“?新建管道”。
6.?在“?新建管道”窗口中,輸入管道名稱,可選輸入描述,然后單擊“?保存”。
出現(xiàn)管道畫布。“屬性”面板顯示管道屬性。
7.?有關(guān)配置管道的步驟,請(qǐng)繼續(xù)執(zhí)行步驟3
相關(guān)信息
什么是管道?
數(shù)據(jù)收集器配置
數(shù)據(jù)收集器用戶界面
Data Collector?提供基于Web的用戶界面(UI)來配置管道,預(yù)覽數(shù)據(jù),監(jiān)視管道和查看數(shù)據(jù)的快照。
該數(shù)據(jù)采集器?UI包括以下一般領(lǐng)域和圖標(biāo):
?
區(qū)/圖標(biāo)
名稱
描述
1
管道畫布
畫布用于配置,預(yù)覽或監(jiān)視管道。
2
屬性面板/預(yù)覽面板/監(jiān)視器面板
在配置管道時(shí),“屬性”面板將顯示管道或所選階段的屬性。您可以調(diào)整大小,最小化和最大化面板。
預(yù)覽數(shù)據(jù)時(shí),“預(yù)覽”面板將顯示進(jìn)入和退出所選階段或階段組的數(shù)據(jù)。它也可以顯示舞臺(tái)屬性和預(yù)覽配置。
監(jiān)視正在運(yùn)行的管道時(shí),“監(jiān)視器”面板將顯示實(shí)時(shí)指標(biāo)和統(tǒng)計(jì)信息。
注意:某些圖標(biāo)和選項(xiàng)可能不會(huì)顯示。顯示的項(xiàng)目取決于您正在執(zhí)行的任務(wù)和分配給您的用戶帳戶的角色。
??? ??
配置顯示
您可以配置Data Collector?UI中的信息顯示方式,如聯(lián)機(jī)幫助版本,面板中的信息密度以及管道創(chuàng)建幫助欄。
1.?在Data Collector?UI的右上角,單擊幫助?>?設(shè)置。
2.?在“設(shè)置”對(duì)話框中,您可以配置以下選項(xiàng):
顯示設(shè)定
描述
時(shí)區(qū)
顯示時(shí)區(qū)。用于在Data Collector?UI中顯示日期和時(shí)間,例如數(shù)據(jù)預(yù)覽或快照數(shù)據(jù)中的日期時(shí)間?數(shù)據(jù)。
您可以選擇以下選項(xiàng)之一:
·?世界標(biāo)準(zhǔn)時(shí)間
·?瀏覽器時(shí)區(qū),通常使用操作系統(tǒng)時(shí)區(qū)。
·?當(dāng)數(shù)據(jù)收集器運(yùn)行在不同的機(jī)器中,操作系統(tǒng)的時(shí)區(qū)上數(shù)據(jù)采集計(jì)算機(jī)。
顯示密度
定義面板中顯示的信息的密度。
幫助文檔
定義Data Collector使用的幫助項(xiàng)目:
·?本地幫助 - 使用與Data Collector一起安裝的幫助項(xiàng)目?。
·?托管幫助 - 使用托管在StreamSets網(wǎng)站上的幫助項(xiàng)目。托管幫助包含最新的可用文檔。需要互聯(lián)網(wǎng)連接。
默認(rèn)托管幫助。當(dāng)互聯(lián)網(wǎng)訪問不可用時(shí),Data Collector使用本地幫助。
這兩個(gè)幫助項(xiàng)目提供上下文相關(guān)的幫助。
隱藏管道創(chuàng)建幫助欄
當(dāng)管道不完整時(shí),隱藏默認(rèn)顯示的管道配置幫助欄。
隱藏REST響應(yīng)菜單
隱藏“REST響應(yīng)”菜單,以便您不能請(qǐng)求REST API響應(yīng)信息。
在后臺(tái)運(yùn)行預(yù)覽以顯示可用字段
在后臺(tái)運(yùn)行預(yù)覽以顯示可用字段的列表,并在配置管線和舞臺(tái)屬性時(shí)顯示“選擇帶預(yù)覽數(shù)據(jù)的字段”選項(xiàng)。
如果預(yù)覽導(dǎo)致大量記錄,則在后臺(tái)運(yùn)行預(yù)覽可以凍結(jié)瀏覽器。要解決此問題,請(qǐng)清除該屬性。
在屬性中包裝長(zhǎng)行
包裝您在屬性中輸入的長(zhǎng)長(zhǎng)的文本行。例如,您可以在配置舞臺(tái)的前提條件時(shí)輸入一長(zhǎng)串文本。
清除后,用滾動(dòng)條顯示長(zhǎng)長(zhǎng)的文本行。
數(shù)據(jù)收集器用戶界面 - 主頁(yè)上的管道
Data Collector?在主頁(yè)上顯示所有可用管道和相關(guān)信息的列表。您可以選擇一個(gè)管道類別,例如Running Pipelines,以查看所有可用管道的子集。
當(dāng)您或您的用戶組具有管道讀取權(quán)限或創(chuàng)建管道時(shí),管道將顯示在主頁(yè)上。
查看主頁(yè)上的管道以執(zhí)行管道維護(hù),例如復(fù)制或共享管道。當(dāng)您單擊頁(yè)面頂層圖標(biāo)集中的主頁(yè)圖標(biāo)()時(shí),您可以訪問主頁(yè)。您也可以在配置或監(jiān)視管道時(shí)通過單擊管道路徑中的管道鏈接來訪問主頁(yè)。
區(qū)/圖標(biāo)
名稱
描述
1
管道庫(kù)
與此Data Collector關(guān)聯(lián)的管道庫(kù)。
圖書館列出:
·?管道狀態(tài) - 選擇管道狀態(tài)以按狀態(tài)過濾列表中的管道。
·?管道標(biāo)簽 - 選擇管道標(biāo)簽以按標(biāo)簽過濾列表中的管道。
2
管道列表
允許您選擇一個(gè)或多個(gè)管道,然后在管道上執(zhí)行操作,例如啟動(dòng),停止或?qū)С龉艿馈?/p>
3
篩選字段
允許您按名稱篩選管道。
4
顯示詳細(xì)資料
顯示列表中每個(gè)管道的錯(cuò)誤消息和警報(bào)文本的詳細(xì)信息。
??? ??
點(diǎn)贊 6
————————————————
版權(quán)聲明:本文為CSDN博主「阿龍學(xué)堂」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/superzyl/article/details/79109061
?
總結(jié)
以上是生活随笔為你收集整理的StreamSets数据操作平台(数据移动及数据清洗强大工具)-第二篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 上海出版印刷高等专科学校分数线2020(
- 下一篇: 能分清直方图和柱状图,你就是图表届的“头