日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop生态Flume(四)拦截器(Interceptor)介绍与使用(2)

發布時間:2023/12/3 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop生态Flume(四)拦截器(Interceptor)介绍与使用(2) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自?Flume中的攔截器(Interceptor)介紹與使用(二)

lume中的攔截器(interceptor),用戶Source讀取events發送到Sink的時候,在events header中加入一些有用的信息,或者對events的內容進行過濾,完成初步的數據清洗。這在實際業務場景中非常有用,Flume-ng 1.6中目前提供了以下攔截器:

Timestamp Interceptor;
Host Interceptor;
Static Interceptor;
UUID Interceptor;
Morphline Interceptor;
Search and Replace Interceptor;
Regex Filtering Interceptor;
Regex Extractor Interceptor;

本文接上一篇《Flume中的攔截器(Interceptor)介紹與使用(一)》,繼續對剩下幾種攔截器進行學習和介紹,并附上使用示例。

?

一、Search and Replace Interceptor

該攔截器用于將events中的正則匹配到的內容做相應的替換。

具體配置示例如下:

## source 攔截器 agent_lxw1234.sources.sources1.interceptors = i1 agent_lxw1234.sources.sources1.interceptors.i1.type = search_replace agent_lxw1234.sources.sources1.interceptors.i1.searchPattern = [0-9]+ agent_lxw1234.sources.sources1.interceptors.i1.replaceString = lxw1234 agent_lxw1234.sources.sources1.interceptors.i1.charset = UTF-8# sink 1 配置 ##agent_lxw1234.sinks.sink1.type = com.lxw1234.sink.MySink agent_lxw1234.sinks.sink1.type = logger agent_lxw1234.sinks.sink1.channel = fileChannel

該配置將events中的數字替換為lxw1234。

原始的events內容為:

實際的events內容為:

?

二、Regex Filtering Interceptor

該攔截器使用正則表達式過濾原始events中的內容。

配置示例如下:

## source 攔截器 agent_lxw1234.sources.sources1.interceptors = i1 agent_lxw1234.sources.sources1.interceptors.i1.type = regex_filter agent_lxw1234.sources.sources1.interceptors.i1.regex = ^lxw1234.* agent_lxw1234.sources.sources1.interceptors.i1.excludeEvents = false# sink 1 配置 ##agent_lxw1234.sinks.sink1.type = com.lxw1234.sink.MySink agent_lxw1234.sinks.sink1.type = logger agent_lxw1234.sinks.sink1.channel = fileChannel

該配置表示過濾掉不是以lxw1234開頭的events。

如果excludeEvents設為true,則表示過濾掉以lxw1234開頭的events。

原始events內容為:

攔截后的events內容為:

?

三、Regex Extractor Interceptor

該攔截器使用正則表達式抽取原始events中的內容,并將該內容加入events header中。

配置示例如下:

## source 攔截器 agent_lxw1234.sources.sources1.interceptors = i1 agent_lxw1234.sources.sources1.interceptors.i1.type = regex_extractor agent_lxw1234.sources.sources1.interceptors.i1.regex = cookieid is (.*?) and ip is (.*?) agent_lxw1234.sources.sources1.interceptors.i1.serializers = s1 s2 agent_lxw1234.sources.sources1.interceptors.i1.serializers.s1.type = default agent_lxw1234.sources.sources1.interceptors.i1.serializers.s1.name = cookieid agent_lxw1234.sources.sources1.interceptors.i1.serializers.s2.type = default agent_lxw1234.sources.sources1.interceptors.i1.serializers.s2.name = ip# sink 1 配置 ##agent_lxw1234.sinks.sink1.type = com.lxw1234.sink.MySink agent_lxw1234.sinks.sink1.type = logger agent_lxw1234.sinks.sink1.channel = fileChannel

該配置從原始events中抽取出cookieid和ip,加入到events header中。

原始的events內容為:

events header中的內容為:

?

Flume的攔截器可以配合Sink完成許多業務場景需要的功能,

比如:按照時間及主機生成目標文件目錄及文件名;

配合Kafka Sink完成多分區的寫入等等。

?

?

總結

以上是生活随笔為你收集整理的Hadoop生态Flume(四)拦截器(Interceptor)介绍与使用(2)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。