数据采集工具flume
概述
flume是在2011年被首次引入到Cloudera的CDH3分發中,2011年6月,Cloudera將flume項目捐獻給Apache基金會。2012年,flume項目從孵化器變成了頂級項目,在孵化的這一年中,開發人員就已經開始基于Star Trek Themed標簽對flume進行重構,并創建了flume-NG(Flume the next Generation)。
?? ?Apache的flume-NG是一個分布式的,可靠的,和可用的系統。能有效地收集,匯總和移動大量的從許多不同的來源,一個集中式數據存儲日志數據。
Apache的flume的使用不僅限于日志數據聚集。由于數據來源是可定制的,flume可以用來大量事件(每一行數據被當做一個event)數據包括但不限
于傳輸網絡數據,社交媒體產生的數據,電子郵件和幾乎任何數據源的可能。
?? ?Apache的flume-NG是Apache軟件基金會的頂級項目,目前有兩個版本的代碼,版本0.9.x和1.x。1.x是全新的架構,該版本重新改進了的性能和配置
的靈活性,鼓勵用戶使用。
系統要求
?? ?1、Java:Java 1.6或更高版本(推薦使用Java 1.7);
?? ?2、內存:配置使用sources、channels、sinks時需要有足夠的內存;
?? ?3、磁盤空間:配置使用channels、sinks時需要有足夠的磁盤空間;
?? ?4、目錄權限:使用agent時需要擁有目錄的讀寫權限;
?
數據流模型
?? ?flume事件被定義為數據流中一個有效字節和一個可選的字符串屬性設置。flume是(JVM)進程中,主機部件通過事件流從外部源的下一個目的地(跳)。
flume源消耗像Web服務器的外部源傳遞到事件。外部源發出的事件在一個由目標識別的格式flumeflume源。例如,一個公司的flume源可用于從公司客戶或其他flume代理發送事件從一個公司的匯流接收Avro事件。類似的流程可以定義使用節儉flume源接收事件從水池或flume節儉節儉RPC客戶端或節儉寫在從flume節儉的協議而產生的任何語言的客戶。當flume源接收事件,就將它保存為一個或多個通道。通道是一個被動的存儲,使事件直到它的flumeflume消耗。文件的渠道就是一個例子–通過本地文件系統支持。flume中移除事件從通道和把它變成像HDFS外部儲存庫(通過flumeHDFS庫)或轉發到下一個flume,flume源代理(下一跳)在流動。在給定的源和匯的代理異步運行在頻道上演的事件。
復雜流動
?? ?flume允許用戶在事件流中建立多個agent。它允許到達目的地時支持扇入和扇出,上下文路由和備份路由,跳過失敗。
轉載于:https://www.cnblogs.com/mengyao/p/4584505.html
總結
以上是生活随笔為你收集整理的数据采集工具flume的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql optimization
- 下一篇: 昆仑通泰界面UI,复制可用,昆仑通泰触摸