當(dāng)前位置：首頁 >

盘点大数据生态圈，那些繁花似锦的开源项目

發(fā)布時(shí)間：2025/3/21 33 豆豆

生活随笔收集整理的這篇文章主要介紹了盘点大数据生态圈，那些繁花似锦的开源项目小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

盤點(diǎn)大數(shù)據(jù)生態(tài)圈，那些繁花似錦的開源項(xiàng)目

發(fā)表于12小時(shí)前| 2466次閱讀| 來源CSDN| 6 條評(píng)論| 作者仲浩

大數(shù)據(jù)開源HadoopSpark width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-09-11%2F2825674&type=3&count=&appkey=&title=%E8%BF%87%E5%8E%BB%E6%95%B0%E5%B9%B4%EF%BC%8C%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E6%BA%90%E7%94%9F%E6%80%81%E5%9C%88%E5%BE%97%E5%88%B0%E4%BA%86%E9%95%BF%E8%B6%B3%E7%9A%84%E5%8F%91%E5%B1%95%E2%80%94%E2%80%94%E5%9C%A8%E6%95%B0%E6%8D%AE%E7%9A%84%E6%95%B4%E4%B8%AA%E7%94%9F%E5%91%BD%E5%91%A8%E6%9C%9F%E4%B8%AD%EF%BC%8C%E5%90%84%E7%A7%8D%E5%BC%80%E6%BA%90%E6%8A%80%E6%9C%AF%E6%A1%86%E6%9E%B6%E6%9E%97%E7%AB%8B%E3%80%82%E8%80%8C%E5%9C%A8%E8%BF%99%E4%BA%9B%E5%BC%80%E6%BA%90%E6%8A%80%E6%9C%AF%E7%9A%84%E5%9F%BA%E7%A1%80%E4%B8%8A%EF%BC%8C%E4%B8%9A%E5%86%85%E6%B6%8C%E7%8E%B0%E5%87%BA%E4%B8%80%E7%B3%BB%E5%88%97%E4%BB%A4%E4%BA%BA%E6%95%AC%E4%BD%A9%E7%9A%84%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%9E%B6%E6%9E%84%E5%AE%9E%E8%B7%B5%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1441979066017" frameborder="0" scrolling="no" allowtransparency="true">摘要：過去數(shù)年，大數(shù)據(jù)開源生態(tài)圈得到了長足的發(fā)展——在數(shù)據(jù)的整個(gè)生命周期中，各種開源技術(shù)框架林立。而在這些開源技術(shù)的基礎(chǔ)上，業(yè)內(nèi)涌現(xiàn)出一系列令人敬佩的大數(shù)據(jù)架構(gòu)實(shí)踐。

隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展，時(shí)下我們正處在一個(gè)大數(shù)據(jù)的時(shí)代。在數(shù)據(jù)金山的誘惑下，各個(gè)機(jī)構(gòu)紛紛開始探索從數(shù)據(jù)中提取洞見并指導(dǎo)實(shí)踐的可能。而在這個(gè)需求的刺激下，在過去數(shù)年，大數(shù)據(jù)開源生態(tài)圈得到了長足的發(fā)展——在數(shù)據(jù)的整個(gè)生命周期中，從收集到處理，一直到數(shù)據(jù)可視化和儲(chǔ)存，各種開源技術(shù)框架林立。

以這些開源技術(shù)為基石，業(yè)內(nèi)涌現(xiàn)出一系列令人敬佩的大數(shù)據(jù)架構(gòu)實(shí)踐，而《程序員》電子刊9月B大數(shù)據(jù)實(shí)戰(zhàn)與技術(shù)專題則摘錄了電商、金融、游戲等行業(yè)的大數(shù)據(jù)應(yīng)用，并覆蓋了當(dāng)下熱門的大數(shù)據(jù)開源技術(shù)實(shí)踐與技術(shù)細(xì)節(jié)，如Hadoop、Spark、Docker等，詳情參閱《程序員》電子刊9月B。而在本文中，筆者將帶大家一覽這些精彩實(shí)踐賴以成型的根本——繁華的開源大數(shù)據(jù)生態(tài)圈。

資源調(diào)度與管理

談海量數(shù)據(jù)處理，機(jī)構(gòu)首先面臨的就是對(duì)系統(tǒng)進(jìn)行擴(kuò)展，其中又分為縱向擴(kuò)展和橫向擴(kuò)展兩種方式。首先看縱向擴(kuò)展，對(duì)于大型IT機(jī)構(gòu)來說，拋開成本不談，用單機(jī)去應(yīng)對(duì)海量數(shù)據(jù)顯然已不切實(shí)際，因此各個(gè)機(jī)構(gòu)不得不在橫向擴(kuò)展上尋找出路，也就是所謂的集群計(jì)算方式。聚焦集群計(jì)算，資源調(diào)度無疑構(gòu)成了整個(gè)計(jì)算模式的基礎(chǔ)。在這個(gè)領(lǐng)域，YARN無疑最為耀眼，被廣泛部署于生產(chǎn)環(huán)境。然而，受限于資源粒度控制和隔離性等問題，Mesos同樣備受矚目，并在一些擁有深厚技術(shù)資本的公司得以使用，比如Apple、Twitter等。

分布式文件系統(tǒng)

在資源調(diào)度之外，大數(shù)據(jù)這一塊最主要的基礎(chǔ)無疑當(dāng)屬分布式文件系統(tǒng)，而歷經(jīng)數(shù)年發(fā)展，HDFS顯然已獨(dú)占鰲頭，同時(shí)也是MapReduce、Spark和Flink等系統(tǒng)的默認(rèn)文件系統(tǒng)。關(guān)于HDFS細(xì)節(jié)相信已無需詳述。

出于業(yè)務(wù)對(duì)速度的追求，在內(nèi)存速度遠(yuǎn)高于磁盤價(jià)格又逐漸降低的情況下，機(jī)構(gòu)使用內(nèi)存來緩存大量數(shù)據(jù)已愈來愈普遍。而基于當(dāng)下內(nèi)存計(jì)算框架存在的普遍挑戰(zhàn)，內(nèi)存文件系統(tǒng)Tachyon得到了顯著地關(guān)注，并在大量場景中得以部署，就拿下文提到的Spark來說：可以用作不同計(jì)算框架的數(shù)據(jù)共享，以避免磁盤IO；用以緩存數(shù)據(jù)，從而避免了JVM崩潰時(shí)的數(shù)據(jù)丟失并緩解GC開銷。此外，Tachyon還被用作遠(yuǎn)程數(shù)據(jù)緩存，服務(wù)于即席查詢。在內(nèi)存為王的時(shí)代，Tachyon前景不可小覷。

分布式計(jì)算類別

時(shí)至今日，隨著業(yè)務(wù)的不斷發(fā)展，分布式計(jì)算可大體分為3個(gè)方向——批處理、流計(jì)算和即席查詢。而針對(duì)這3個(gè)不同領(lǐng)域，大數(shù)據(jù)生態(tài)圈內(nèi)同樣存在大量值得參考的框架。

1. 批處理

在開源大數(shù)據(jù)處理上，業(yè)內(nèi)最早接觸的無疑就是MapReduce，同時(shí)也是當(dāng)下生產(chǎn)環(huán)境部署最多的計(jì)算框架。然而正如上文所述，缺乏對(duì)內(nèi)存的有效利用，效率比較低的MapReduce同樣面臨著大量的競爭者，其中兩個(gè)備受關(guān)注的就是Spark和Flink。

Spark出自伯克利AMPLab之手，基于Scala實(shí)現(xiàn)，從開源至今已吸引了越來越多企業(yè)的落地使用，僅國內(nèi)比較知名的大規(guī)模部署就有百度、阿里、騰訊等。Spark最主要抽象概念是彈性分布式數(shù)據(jù)集（RDD），在內(nèi)存中儲(chǔ)存數(shù)據(jù)，只有在需要時(shí)才會(huì)訪問磁盤，在迭代計(jì)算上具有明顯優(yōu)勢(shì)。同時(shí)需要注意的是，Spark并不是一個(gè)完全基于內(nèi)存的計(jì)算平臺(tái)。

Flink于今年躋身Apache頂級(jí)開源項(xiàng)目，與HDFS完全兼容。Flink提供了基于Java和Scala的API，是一個(gè)高效、分布式的通用大數(shù)據(jù)分析引擎，其主要借鑒了MPP的思路。更主要的是，Flink支持增量迭代計(jì)算，從而系統(tǒng)可以快速地處理數(shù)據(jù)密集型和迭代任務(wù)；同時(shí)，即使內(nèi)存被耗盡，通過內(nèi)存管理組件、序列化框架和類型推理引擎，Flink也可以正常運(yùn)行。

2.流計(jì)算

當(dāng)下知名度比較高的開源流式計(jì)算框架有Storm/JStorm、Spark Streaming、Flink、S4、Samza。其中S4出現(xiàn)的比較早，但是基于該項(xiàng)目的活躍度，這里不再討論。

Storm編程模型簡單，顯著地降低了進(jìn)行實(shí)時(shí)處理的難度，也是當(dāng)下最人氣的流計(jì)算框架之一。同時(shí)，對(duì)比其他計(jì)算框架，Storm有一個(gè)更低的延時(shí)（毫秒級(jí)）。此外，歷經(jīng)數(shù)年發(fā)展，Storm也更加成熟，在容錯(cuò)性、擴(kuò)展性、可靠性上都有不俗的表現(xiàn)。

Samza出自于LinkedIn，構(gòu)建在Kafka之上的分布式流計(jì)算框架，于今年年初躋身于Apache頂級(jí)開源項(xiàng)目。與Storm的區(qū)別是，Samza可以直接利用YARN。

Spark Streaming。嚴(yán)格來講，Spark Streaming該歸屬于批處理，其處理機(jī)制是將數(shù)據(jù)流分解成一系列小的RDD，通過時(shí)間窗來控制數(shù)據(jù)塊的大小。雖然Spark Streaming在實(shí)時(shí)性上略微遜色，但卻擁有更大的吞吐，并且可以輕松的與Spark其它組件結(jié)合，發(fā)揮更強(qiáng)大的作用。

Flink支持delta-iterations，在迭代中可以顯著減少計(jì)算。同時(shí)，在處理方式中，Flink是一行一行處理，從而能獲得與Storm類似的性能。然而，對(duì)于SQL支持和社區(qū)活躍度上，Flink都稍遜Spark一籌。

3. 即席查詢

即席查詢當(dāng)下比較受關(guān)注的有Hive、SparkSQL、Presto、Impala、Drill等，其中Hive借助于Hadoop的東風(fēng)，已然在生產(chǎn)環(huán)境得到廣泛使用。在Hive之外，關(guān)注度最高的無疑是Spark SQL。Impala出自知名大數(shù)據(jù)創(chuàng)業(yè)公司Cloudera，在沉寂了一段時(shí)間后，當(dāng)下亦有了復(fù)蘇的跡象。Presto來自Facebook，類似于Impala的一個(gè)即席查詢工具，在該公司內(nèi)部得到廣泛使用，而國內(nèi)也在一些知名公司得到部署，比如美團(tuán)。Drill則是Google Dremel的開源實(shí)現(xiàn)，于今年5月發(fā)布了里程碑版本1.0，稍顯年輕。

大數(shù)據(jù)開源生態(tài)繁花似錦

在大數(shù)據(jù)領(lǐng)域，除下上述幾個(gè)分布式計(jì)算類別之外，在圖處理和機(jī)器學(xué)習(xí)領(lǐng)域同樣存在許多優(yōu)秀的開源技術(shù)框架，比如：圖計(jì)算開源技術(shù)Spark Graphx、PowerGraph、Giraph、Neo4j等；機(jī)器學(xué)習(xí)開源技術(shù)Spark MLlib、Mahout、PredictionIO等。同時(shí)，開源技術(shù)已經(jīng)占領(lǐng)了數(shù)據(jù)從收集到可視化和存儲(chǔ)的整個(gè)流程，比如：用于數(shù)據(jù)收集的Flume(NG)和Sqoop，分布式消息隊(duì)列技術(shù)Kafka、RabbitMQ，用于數(shù)據(jù)可視化的HighCharts、D3.js、Kibana、Echarts等等。此外，加之Cassandra、HBase、MongoDB、Redis等NoSQL，Lucene、Solr、ElasticSearch等搜索技術(shù)，Docker等容器技術(shù)，ZooKeeper等分布式應(yīng)用程序協(xié)調(diào)服務(wù)，整個(gè)大數(shù)據(jù)開源生態(tài)繁花似錦！

總結(jié)

以上是生活随笔為你收集整理的盘点大数据生态圈，那些繁花似锦的开源项目的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：百度发布机器人助理度秘 “三大基石”炼成
下一篇：华为，15万大军孤独行走在世界上