全球100款大数据工具汇总(前50款)
01 ?Talend Open Studio
是第一家針對的數據集成工具市場的ETL(數據的提取Extract、傳輸Transform、載入Load)開源軟件供應商。Talend的下載量已超過200萬人次,其開源軟件提供了數據整合功能。其用戶包括美國國際集團(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋里遜等企業組織。
02 DYSON
探碼科技自主研發的DYSON智能分析系統,可以完整的實現大數據的采集、分析、處理。DYSON智能分析系統專業針對互聯網數據抓取、處理、分析,挖掘。可以靈活迅速地抓取網頁上散亂分布的信息,并通過強大的處理功能,準確挖掘出所需數據,是目前使用人數最多的網頁采集工具.
03 YARN
一種新的Hadoop資源管理器,它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度,解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和作業調度/監控的功能分割到單獨的守護進程。
04 Mesos
由加州大學伯克利分校的AMPLab首先開發的一款開源群集管理軟件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架構。對數據中心而言它就像一個單一的資源池,從物理或虛擬機器中抽離了CPU,內存,存儲以及其它計算資源, 很容易建立和有效運行具備容錯性和彈性的分布式系統。
05 Datale
由探碼科技研發的一款基于Hadoop的大數據平臺開發套件,RAI大數據應用平臺架構。
06 Ambari
作為Hadoop生態系統的一部分,提供了基于Web的直觀界面,可用于配置、管理和監控Hadoop集群。目前已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
07 ZooKeeper
一個分布式的應用程序協調服務,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的工具,讓Hadoop集群里面的節點可以彼此協調。ZooKeeper現在已經成為了 Apache的頂級項目,為分布式系統提供了高效可靠且易于使用的協同服務。
08 Thrift
在2007年facebook提交Apache基金會將Thrift作為一個開源項目,對于當時的facebook來說創造thrift是為了解決facebook系統中各系統間大數據量的傳輸通信以及系統之間語言環境不同需要跨平臺的特性。
09 Chukwa
監測大型分布式系統的一個開源數據采集系統,建立在HDFS/MapReduce框架之上并繼承了Hadoop的可伸縮性和可靠性,可以收集來自大型分布式系統的數據,用于監控。它還包括靈活而強大的顯示工具用于監控、分析結果。
10 Lustre
一個大規模的、安全可靠的、具備高可用性的集群文件系統,它是由SUN公司開發和維護的。該項目主要的目的就是開發下一代的集群文件系統,目前可以支持超過10000個節點,數以PB的數據存儲量。
11 HDFS
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。
12 GlusterFS
一個集群的文件系統,支持PB級的數據量。GlusterFS 通過RDMA和TCP/IP方式將分布到不同服務器上的存儲空間匯集成一個大的網絡化并行文件系統。
13 Alluxio
前身是Tachyon,是以內存為中心的分布式文件系統,擁有高性能和容錯能力,能夠為集群框架(如Spark、MapReduce)提供可靠的內存級速度的文件共享服務。
14 Ceph
新一代開源分布式文件系統,主要目標是設計成基于POSIX的沒有單點故障的分布式文件系統,提高數據的容錯性并實現無縫的復制。
15 PVFS
一個高性能、開源的并行文件系統,主要用于并行計算環境中的應用。PVFS特別為超大數量的客戶端和服務器端所設計,它的模塊化設計結構可輕松的添加新的硬件和算法支持。
16 QFS
Quantcast File System (QFS) 是一個高性能、容錯好、分布式的文件系統,用于開發支持 MapReduce處理或者需要順序讀寫大文件的應用。
17 ?Logstash
一個應用程序日志、事件的傳輸、處理、管理和搜索的平臺。可以用它來統一對應用程序日志進行收集管理,提供了Web接口用于查詢和統計。
18 Scribe
Scribe是Facebook開源的日志收集系統,它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(可以是NFS,分布式文件系統等)上,以便于進行集中統計分析處理。
19 Flume
Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統。Flume支持在日志系統中定制各類數據發送方,用于收集數據。同時,Flume支持對數據進行簡單處理,并寫入各種數據接受方(可定制)。
20 RabbitMQ
一個受歡迎的消息代理系統,通常用于應用程序之間或者程序的不同組件之間通過消息來進行集成。RabbitMQ提供可靠的應用消息發送、易于使用、支持所有主流操作系統、支持大量開發者平臺。
21 ActiveMQ
Apache出品,號稱“最流行的,最強大”的開源消息集成模式服務器。ActiveMQ特點是速度快,支持多種跨語言的客戶端和協議,其企業集成模式和許多先進的功能易于使用,是一個完全支持JMS1.1和J2EE 1.4規范的JMS Provider實現。
22 Kafka
一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模網站中的所有動作流數據,目前已成為大數據系統在異步和分布式消息之間的最佳選擇。
23 Spark
一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具有的優點,但不同的是Job的中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce的算法。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。
24 Kinesis
可以構建用于處理或分析流數據的自定義應用程序,來滿足特定需求。Amazon Kinesis Streams 每小時可從數十萬種來源中連續捕獲和存儲數TB數據,如網站點擊流、財務交易、社交媒體源、IT日志和定位追蹤事件。
25 ?Hadoop
一個開源框架,適合運行在通用硬件,支持用簡單程序模型分布式處理跨集群大數據集,支持從單一服務器到上千服務器的水平scale up。Apache的Hadoop項目已幾乎與大數據劃上了等號,它不斷壯大起來,已成為一個完整的生態系統,擁有眾多開源工具面向高度擴展的分布式計算。高效、可靠、可伸縮,能夠為你的數據存儲項目提供所需的YARN、HDFS和基礎架構,并且運行主要的大數據服務和應用程序。
26 Spark Streaming
實現微批處理,目標是很方便的建立可擴展、容錯的流應用,支持Java、Scala和Python,和Spark無縫集成。Spark Streaming可以讀取數據HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以讀取自定義數據。
27 Trident
是對Storm的更高一層的抽象,除了提供一套簡單易用的流數據處理API之外,它以batch(一組tuples)為單位進行處理,這樣一來,可以使得一些處理更簡單和高效。
28 Flink
于今年躋身Apache頂級開源項目,與HDFS完全兼容。Flink提供了基于Java和Scala的API,是一個高效、分布式的通用大數據分析引擎。更主要的是,Flink支持增量迭代計算,使得系統可以快速地處理數據密集型、迭代的任務。
29 Samza
出自于LinkedIn,構建在Kafka之上的分布式流計算框架,是Apache頂級開源項目。可直接利用Kafka和Hadoop YARN提供容錯、進程隔離以及安全、資源管理。
30 Storm
Storm是Twitter開源的一個類似于Hadoop的實時數據處理框架。編程模型簡單,顯著地降低了實時處理的難度,也是當下最人氣的流計算框架之一。與其他計算框架相比,Storm最大的優點是毫秒級低延時。
31 Yahoo S4 (Simple Scalable Streaming System)
是一個分布式流計算平臺,具備通用、分布式、可擴展的、容錯、可插拔等特點,程序員可以很容易地開發處理連續無邊界數據流(continuous unbounded streams of data)的應用。它的目標是填補復雜專有系統和面向批處理開源產品之間的空白,并提供高性能計算平臺來解決并發處理系統的復雜度。
32 HaLoop
是一個Hadoop MapReduce框架的修改版本,其目標是為了高效支持 迭代,遞歸數據 分析任務,如PageRank,HITs,K-means,sssp等。
33 Presto
是一個開源的分布式SQL查詢引擎,適用于交互式分析查詢,可對250PB以上的數據進行快速地交互式分析。Presto的設計和編寫是為了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多。
34 Drill
于2012年8月份由Apache推出,讓用戶可以使用基于SQL的查詢,查詢Hadoop、NoSQL數據庫和云存儲服務。它能夠運行在上千個節點的服務器集群上,且能在幾秒內處理PB級或者萬億條的數據記錄。它可用于數據挖掘和即席查詢,支持一系列廣泛的數據庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌云存儲和Swift。
35 Phoenix
是一個Java中間層,可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫,并且提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,并編排執行以生成標準的JDBC結果集。
36 Pig
是一種編程語言,它簡化了Hadoop常見的工作任務。Pig可加載數據、轉換數據以及存儲最終結果。Pig最大的作用就是為MapReduce框架實現了一套shell腳本 ,類似我們通常熟悉的SQL語句。
37 Hive
是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
38 SparkSQL
前身是Shark,SparkSQL拋棄原有Shark的代碼并汲取了一些優點,如內存列存儲(In-Memory Columnar Storage)、Hive兼容性等。由于擺脫了對Hive的依賴性,SparkSQL無論在數據兼容、性能優化、組件擴展方面都得到了極大的方便。
39 Stinger
原來叫Tez,是下一代Hive,由Hortonworks主導開發,運行在YARN上的DAG計算框架。某些測試下,Stinger能提升10倍左右的性能,同時會讓Hive支持更多的SQL。
40 Tajo
目的是在HDFS之上構建一個可靠的、支持關系型數據的分布式數據倉庫系統,它的重點是提供低延遲、可擴展的ad-hoc查詢和在線數據聚集,以及為更傳統的ETL提供工具。
41 Impala
Cloudera 聲稱,基于SQL的Impala數據庫是“面向Apache Hadoop的領先的開源分析數據庫”。它可以作為一款獨立產品來下載,又是Cloudera的商業大數據產品的一部分。Cloudera Impala 可以直接為存儲在HDFS或HBase中的Hadoop數據提供快速、交互式的SQL查詢。
42 ?Elasticsearch
是一個基于Lucene的搜索服務器。它提供了一個分布式、支持多用戶的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發的,并作為Apache許可條款下的開放源碼發布,是當前流行的企業級搜索引擎。設計用于云計算中,能夠達到實時搜索、穩定、可靠、快速、安裝使用方便。
43 Solr
基于Apache Lucene,是一種高度可靠、高度擴展的企業搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。
44 Shark
即Hive on Spark,本質上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數據庫里的表信息,實際HDFS上的數據和文件,會由Shark獲取并放到Spark上運算。Shark的特點就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結果集,繼續在scala環境下運算,支持自己編寫簡單的機器學習或簡單分析處理函數,對HQL結果進一步分析計算。
45 Lucene
基于Java的Lucene可以非常迅速地執行全文搜索。據官方網站聲稱,它在現代硬件上每小時能夠檢索超過150GB的數據,它擁有強大而高效的搜索算法。
46 Terracotta
聲稱其BigMemory技術是“世界上首屈一指的內存中數據管理平臺”,支持簡單、可擴展、實時消息,聲稱在190個國家擁有210萬開發人員,全球1000家企業部署了其軟件。
47 ?Ignite
是一種高性能、整合式、分布式的內存中平臺,可用于對大規模數據集執行實時計算和處理,速度比傳統的基于磁盤的技術或閃存技術高出好幾個數量級。該平臺包括數據網格、計算網格、服務網格、流媒體、Hadoop加速、高級集群、文件系統、消息傳遞、事件和數據結構等功能。
48 GemFire
Pivotal宣布它將開放其大數據套件關鍵組件的源代碼,其中包括GemFire內存中NoSQL數據庫。它已向Apache軟件基金會遞交了一項提案,以便在“Geode”的名下管理GemFire數據庫的核心引擎。
49 ?GridGain
由Apache Ignite驅動的GridGrain提供內存中數據結構,用于迅速處理大數據,還提供基于同一技術的Hadoop加速器。
50 MongoDB
是一個基于分布式文件存儲的數據庫。由C++語言編寫。旨在為web應用提供可擴展的高性能數據存儲解決方案。介于關系數據庫和非關系數據庫之間的開源產品,是非關系數據庫當中功能最豐富、最像關系數據庫的產品。
來源:艾斯尼勒
總結
以上是生活随笔為你收集整理的全球100款大数据工具汇总(前50款)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么离开学校后,学习能力直线下降?
- 下一篇: 程序员上帝视角解读“旅行青蛙”,你的呱真