storm简介(大数据技术)
Apache Storm簡介
由 chalex 創建,小路依依 最后一次修改 2016-12-12
什么是Apache Storm?
Apache Storm是一個分布式實時大數據處理系統。Storm設計用于在容錯和水平可擴展方法中處理大量數據。它是一個流數據框架,具有最高的攝取率。雖然Storm是無狀態的,它通過Apache ZooKeeper管理分布式環境和集群狀態。它很簡單,您可以并行地對實時數據執行各種操作。
Apache Storm繼續成為實時數據分析的領導者。Storm易于設置和操作,并且它保證每個消息將通過拓撲至少處理一次。
Apache Storm vs Hadoop
基本上Hadoop和Storm框架用于分析大數據。兩者互補,在某些方面有所不同。Apache Storm執行除持久性之外的所有操作,而Hadoop在所有方面都很好,但滯后于實時計算。下表比較了Storm和Hadoop的屬性。
Storm Hadoop
實時流處理 批量處理
無狀態 有狀態
主/從架構與基于ZooKeeper的協調。主節點稱為nimbus,從屬節點是主管。 具有/不具有基于ZooKeeper的協調的主 - 從結構。主節點是作業跟蹤器,從節點是任務跟蹤器。
Storm流過程在集群上每秒可以訪問數萬條消息。 Hadoop分布式文件系統(HDFS)使用MapReduce框架來處理大量的數據,需要幾分鐘或幾小時。
Storm拓撲運行直到用戶關閉或意外的不可恢復故障。 MapReduce作業按順序執行并最終完成。
兩者都是分布式和容錯的
如果nimbus / supervisor死機,重新啟動使它從它停止的地方繼續,因此沒有什么受到影響。 如果JobTracker死機,所有正在運行的作業都會丟失。
使用Apache Storm的例子
Apache Storm對于實時大數據流處理非常有名。因此,大多數公司都將Storm用作其系統的一個組成部分。一些值得注意的例子如下 -
Twitter - Twitter正在使用Apache Storm作為其“發布商分析產品”。 “發布商分析產品”處理Twitter平臺中的每個tweets和點擊。 Apache Storm與Twitter基礎架構深度集成。
NaviSite - NaviSite正在使用Storm進行事件日志監控/審計系統。系統中生成的每個日志都將通過Storm。Storm將根據配置的正則表達式集檢查消息,如果存在匹配,那么該特定消息將保存到數據庫。
Wego - Wego是位于新加坡的旅行元搜索引擎。旅行相關數據來自世界各地的許多來源,時間不同。Storm幫助Wego搜索實時數據,解決并發問題,并為最終用戶找到最佳匹配。
Apache Storm優勢
下面是Apache Storm提供的好處列表:
? Storm是開源的,強大的,用戶友好的。它可以用于小公司和大公司。
? Storm是容錯的,靈活的,可靠的,并且支持任何編程語言。
? 允許實時流處理。
? Storm是令人難以置信的快,因為它具有巨大的處理數據的力量。
? Storm可以通過線性增加資源來保持性能,即使在負載增加的情況下。它是高度可擴展的。
? Storm在幾秒鐘或幾分鐘內執行數據刷新和端到端傳送響應取決于問題。它具有非常低的延遲。
? Storm有操作智能。
? Storm提供保證的數據處理,即使群集中的任何連接的節點死或消息丟失。
總結
以上是生活随笔為你收集整理的storm简介(大数据技术)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html登录界面_使用数据库制作一套注册
- 下一篇: 乔布斯一生中的3次阴差阳错、柳暗花明