flume ng之组件介绍
1、channel
2、source
3、sink
4、直接讀取文件Source,有哪兩種方式?
5、Channel有幾種方式?
6、Sink在設置存儲數據時,數據較多,較少的情況下,該如何處理?
Flume是一個非常不錯的日志收集系統,其設計理念非常易用,簡潔。并且是一個開源項目,基于Java開發,可以進行一些自定義的功能開發。運行Flume時,機器必須安裝JDK6.0以上的版本,并且,Flume目前只有Linux的啟動腳本,沒有Windows環境的啟動腳本。
Flume主要由3個重要的組件構成:
Source:完成對日志數據的手機,分成trasition和event打入到channel之中。
Channel:主要提供一個隊列的功能,對Source提供中的數據進行簡單的緩存。
Sink:取出Channel中的數據,進行相應的存儲文件系統,數據庫,或者提交到遠程服務器。
對現有程序改動最小的使用方式是使用直接讀取程序原來記錄的日志文件,基本可以實現無縫接入,不需要對現有程序進行任何改動。
對于直接讀取文件Source,有兩種方式:
ExecSource:以運行Linux命令的方式,持續的輸出最新的數據,如tail -F 文件名指令,在這種方式下,取的文件名必須是指定的。
SpoolSource:是檢測配置的目錄下新增的文件,并將文件中的數據讀取出來。
需要注意兩點:
1、拷貝到spool目錄下的文件不可以再打開編輯。
2、spool目錄下不可包含相應的子目錄。
?
在實際使用的過程中,可以結合log4j使用,使用log4j的時候,將log4j的文件分割機制設為1分鐘一次,將文件拷貝到spool的監控目錄。log4j有一個TimeRolling的插件,可以把log4j分割的文件拷貝到spool目錄。基本實現了實時的監控。
Flume在傳完文件之后,將會修改文件的后綴,變為.COMPLETED(后綴也可以在配置文件中靈活指定)
ExecSource, SpoolSource對比:
ExecSource可以實現對日志的實時手機,但是存在Flume不運行或者指令執行出錯時,將無法收集到日志數據,無法保證日志數據的完整性。SpoolSource雖然無法實現實時的收集數據,但是可以使用以分鐘的方式分割文件,趨近于實時。如果應用無法實現以分鐘切割日志文件的話,可以兩種收集方式結合使用。
Channel有多重方式:
有MemoryChannel,JDBC Channel,MemoryRecoverChannel, FileChannel。MemoryChannel可以實現告訴的吞吐,但是無法保證數據的完整性。MemoryRecoverChannel在官方文檔的件以上已經建議使用FileChannel來替換。FileChannel保證數據的完整性與一致性。在具體配置實現的FileChannel時,建議FileChannel設置的目錄和程序的日志文件保存的目錄設成不同的磁盤,以便提高效率。
?
Sink在設置存儲數據時,可以向文件系統中,數據庫中,hadoop中存儲數據,在日志數據較少時,可以將數據存儲在文件系統中,并且設定一定的時間間隔保存數據。在日志數據較多時,可以將相應的日志數據存儲到Hadoop中,便于日后進行相應的數據分析。
?
轉載于:https://www.cnblogs.com/man-li/p/4362152.html
總結
以上是生活随笔為你收集整理的flume ng之组件介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring getbean 方法分析
- 下一篇: activity-alias的使用