日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

盘点大数据生态圈,那些繁花似锦的开源项目

發(fā)布時(shí)間:2025/3/21 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 盘点大数据生态圈,那些繁花似锦的开源项目 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


盤點(diǎn)大數(shù)據(jù)生態(tài)圈,那些繁花似錦的開源項(xiàng)目

發(fā)表于12小時(shí)前| 2466次閱讀| 來源CSDN| 6 條評(píng)論| 作者仲浩

大數(shù)據(jù)開源HadoopSpark width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-09-11%2F2825674&type=3&count=&appkey=&title=%E8%BF%87%E5%8E%BB%E6%95%B0%E5%B9%B4%EF%BC%8C%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E6%BA%90%E7%94%9F%E6%80%81%E5%9C%88%E5%BE%97%E5%88%B0%E4%BA%86%E9%95%BF%E8%B6%B3%E7%9A%84%E5%8F%91%E5%B1%95%E2%80%94%E2%80%94%E5%9C%A8%E6%95%B0%E6%8D%AE%E7%9A%84%E6%95%B4%E4%B8%AA%E7%94%9F%E5%91%BD%E5%91%A8%E6%9C%9F%E4%B8%AD%EF%BC%8C%E5%90%84%E7%A7%8D%E5%BC%80%E6%BA%90%E6%8A%80%E6%9C%AF%E6%A1%86%E6%9E%B6%E6%9E%97%E7%AB%8B%E3%80%82%E8%80%8C%E5%9C%A8%E8%BF%99%E4%BA%9B%E5%BC%80%E6%BA%90%E6%8A%80%E6%9C%AF%E7%9A%84%E5%9F%BA%E7%A1%80%E4%B8%8A%EF%BC%8C%E4%B8%9A%E5%86%85%E6%B6%8C%E7%8E%B0%E5%87%BA%E4%B8%80%E7%B3%BB%E5%88%97%E4%BB%A4%E4%BA%BA%E6%95%AC%E4%BD%A9%E7%9A%84%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%9E%B6%E6%9E%84%E5%AE%9E%E8%B7%B5%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1441979066017" frameborder="0" scrolling="no" allowtransparency="true">摘要:過去數(shù)年,大數(shù)據(jù)開源生態(tài)圈得到了長足的發(fā)展——在數(shù)據(jù)的整個(gè)生命周期中,各種開源技術(shù)框架林立。而在這些開源技術(shù)的基礎(chǔ)上,業(yè)內(nèi)涌現(xiàn)出一系列令人敬佩的大數(shù)據(jù)架構(gòu)實(shí)踐。

隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,時(shí)下我們正處在一個(gè)大數(shù)據(jù)的時(shí)代。在數(shù)據(jù)金山的誘惑下,各個(gè)機(jī)構(gòu)紛紛開始探索從數(shù)據(jù)中提取洞見并指導(dǎo)實(shí)踐的可能。而在這個(gè)需求的刺激下,在過去數(shù)年,大數(shù)據(jù)開源生態(tài)圈得到了長足的發(fā)展——在數(shù)據(jù)的整個(gè)生命周期中,從收集到處理,一直到數(shù)據(jù)可視化和儲(chǔ)存,各種開源技術(shù)框架林立。

以這些開源技術(shù)為基石,業(yè)內(nèi)涌現(xiàn)出一系列令人敬佩的大數(shù)據(jù)架構(gòu)實(shí)踐,而《程序員》電子刊9月B大數(shù)據(jù)實(shí)戰(zhàn)與技術(shù)專題則摘錄了電商、金融、游戲等行業(yè)的大數(shù)據(jù)應(yīng)用,并覆蓋了當(dāng)下熱門的大數(shù)據(jù)開源技術(shù)實(shí)踐與技術(shù)細(xì)節(jié),如Hadoop、Spark、Docker等,詳情參閱《程序員》電子刊9月B。而在本文中,筆者將帶大家一覽這些精彩實(shí)踐賴以成型的根本——繁華的開源大數(shù)據(jù)生態(tài)圈。

資源調(diào)度與管理

談海量數(shù)據(jù)處理,機(jī)構(gòu)首先面臨的就是對(duì)系統(tǒng)進(jìn)行擴(kuò)展,其中又分為縱向擴(kuò)展和橫向擴(kuò)展兩種方式。首先看縱向擴(kuò)展,對(duì)于大型IT機(jī)構(gòu)來說,拋開成本不談,用單機(jī)去應(yīng)對(duì)海量數(shù)據(jù)顯然已不切實(shí)際,因此各個(gè)機(jī)構(gòu)不得不在橫向擴(kuò)展上尋找出路,也就是所謂的集群計(jì)算方式。聚焦集群計(jì)算,資源調(diào)度無疑構(gòu)成了整個(gè)計(jì)算模式的基礎(chǔ)。在這個(gè)領(lǐng)域,YARN無疑最為耀眼,被廣泛部署于生產(chǎn)環(huán)境。然而,受限于資源粒度控制和隔離性等問題,Mesos同樣備受矚目,并在一些擁有深厚技術(shù)資本的公司得以使用,比如Apple、Twitter等。

分布式文件系統(tǒng)

在資源調(diào)度之外,大數(shù)據(jù)這一塊最主要的基礎(chǔ)無疑當(dāng)屬分布式文件系統(tǒng),而歷經(jīng)數(shù)年發(fā)展,HDFS顯然已獨(dú)占鰲頭,同時(shí)也是MapReduce、Spark和Flink等系統(tǒng)的默認(rèn)文件系統(tǒng)。關(guān)于HDFS細(xì)節(jié)相信已無需詳述。


出于業(yè)務(wù)對(duì)速度的追求,在內(nèi)存速度遠(yuǎn)高于磁盤價(jià)格又逐漸降低的情況下,機(jī)構(gòu)使用內(nèi)存來緩存大量數(shù)據(jù)已愈來愈普遍。而基于當(dāng)下內(nèi)存計(jì)算框架存在的普遍挑戰(zhàn),內(nèi)存文件系統(tǒng)Tachyon得到了顯著地關(guān)注,并在大量場景中得以部署,就拿下文提到的Spark來說:可以用作不同計(jì)算框架的數(shù)據(jù)共享,以避免磁盤IO;用以緩存數(shù)據(jù),從而避免了JVM崩潰時(shí)的數(shù)據(jù)丟失并緩解GC開銷。此外,Tachyon還被用作遠(yuǎn)程數(shù)據(jù)緩存,服務(wù)于即席查詢。在內(nèi)存為王的時(shí)代,Tachyon前景不可小覷。

分布式計(jì)算類別

時(shí)至今日,隨著業(yè)務(wù)的不斷發(fā)展,分布式計(jì)算可大體分為3個(gè)方向——批處理、流計(jì)算和即席查詢。而針對(duì)這3個(gè)不同領(lǐng)域,大數(shù)據(jù)生態(tài)圈內(nèi)同樣存在大量值得參考的框架。

1. 批處理

在開源大數(shù)據(jù)處理上,業(yè)內(nèi)最早接觸的無疑就是MapReduce,同時(shí)也是當(dāng)下生產(chǎn)環(huán)境部署最多的計(jì)算框架。然而正如上文所述,缺乏對(duì)內(nèi)存的有效利用,效率比較低的MapReduce同樣面臨著大量的競爭者,其中兩個(gè)備受關(guān)注的就是Spark和Flink。

Spark出自伯克利AMPLab之手,基于Scala實(shí)現(xiàn),從開源至今已吸引了越來越多企業(yè)的落地使用,僅國內(nèi)比較知名的大規(guī)模部署就有百度、阿里、騰訊等。Spark最主要抽象概念是彈性分布式數(shù)據(jù)集(RDD),在內(nèi)存中儲(chǔ)存數(shù)據(jù),只有在需要時(shí)才會(huì)訪問磁盤,在迭代計(jì)算上具有明顯優(yōu)勢(shì)。同時(shí)需要注意的是,Spark并不是一個(gè)完全基于內(nèi)存的計(jì)算平臺(tái)。

Flink于今年躋身Apache頂級(jí)開源項(xiàng)目,與HDFS完全兼容。Flink提供了基于Java和Scala的API,是一個(gè)高效、分布式的通用大數(shù)據(jù)分析引擎,其主要借鑒了MPP的思路。更主要的是,Flink支持增量迭代計(jì)算,從而系統(tǒng)可以快速地處理數(shù)據(jù)密集型和迭代任務(wù);同時(shí),即使內(nèi)存被耗盡,通過內(nèi)存管理組件、序列化框架和類型推理引擎,Flink也可以正常運(yùn)行。

2.流計(jì)算

當(dāng)下知名度比較高的開源流式計(jì)算框架有Storm/JStorm、Spark Streaming、Flink、S4、Samza。其中S4出現(xiàn)的比較早,但是基于該項(xiàng)目的活躍度,這里不再討論。

Storm編程模型簡單,顯著地降低了進(jìn)行實(shí)時(shí)處理的難度,也是當(dāng)下最人氣的流計(jì)算框架之一。同時(shí),對(duì)比其他計(jì)算框架,Storm有一個(gè)更低的延時(shí)(毫秒級(jí))。此外,歷經(jīng)數(shù)年發(fā)展,Storm也更加成熟,在容錯(cuò)性、擴(kuò)展性、可靠性上都有不俗的表現(xiàn)。

Samza出自于LinkedIn,構(gòu)建在Kafka之上的分布式流計(jì)算框架,于今年年初躋身于Apache頂級(jí)開源項(xiàng)目。與Storm的區(qū)別是,Samza可以直接利用YARN。

Spark Streaming。嚴(yán)格來講,Spark Streaming該歸屬于批處理,其處理機(jī)制是將數(shù)據(jù)流分解成一系列小的RDD,通過時(shí)間窗來控制數(shù)據(jù)塊的大小。 雖然Spark Streaming在實(shí)時(shí)性上略微遜色,但卻擁有更大的吞吐,并且可以輕松的與Spark其它組件結(jié)合,發(fā)揮更強(qiáng)大的作用。

Flink支持delta-iterations,在迭代中可以顯著減少計(jì)算。同時(shí),在處理方式中,Flink是一行一行處理,從而能獲得與Storm類似的性能。然而,對(duì)于SQL支持和社區(qū)活躍度上,Flink都稍遜Spark一籌。

3. 即席查詢

即席查詢當(dāng)下比較受關(guān)注的有Hive、SparkSQL、Presto、Impala、Drill等,其中Hive借助于Hadoop的東風(fēng),已然在生產(chǎn)環(huán)境得到廣泛使用。在Hive之外,關(guān)注度最高的無疑是Spark SQL。Impala出自知名大數(shù)據(jù)創(chuàng)業(yè)公司Cloudera,在沉寂了一段時(shí)間后,當(dāng)下亦有了復(fù)蘇的跡象。Presto來自Facebook,類似于Impala的一個(gè)即席查詢工具,在該公司內(nèi)部得到廣泛使用,而國內(nèi)也在一些知名公司得到部署,比如美團(tuán)。Drill則是Google Dremel的開源實(shí)現(xiàn),于今年5月發(fā)布了里程碑版本1.0,稍顯年輕。

大數(shù)據(jù)開源生態(tài)繁花似錦

在大數(shù)據(jù)領(lǐng)域,除下上述幾個(gè)分布式計(jì)算類別之外,在圖處理和機(jī)器學(xué)習(xí)領(lǐng)域同樣存在許多優(yōu)秀的開源技術(shù)框架,比如:圖計(jì)算開源技術(shù)Spark Graphx、PowerGraph、Giraph、Neo4j等;機(jī)器學(xué)習(xí)開源技術(shù)Spark MLlib、Mahout、PredictionIO等。同時(shí),開源技術(shù)已經(jīng)占領(lǐng)了數(shù)據(jù)從收集到可視化和存儲(chǔ)的整個(gè)流程,比如:用于數(shù)據(jù)收集的Flume(NG)和Sqoop,分布式消息隊(duì)列技術(shù)Kafka、RabbitMQ,用于數(shù)據(jù)可視化的HighCharts、D3.js、Kibana、Echarts等等。此外,加之Cassandra、HBase、MongoDB、Redis等NoSQL,Lucene、Solr、ElasticSearch等搜索技術(shù),Docker等容器技術(shù),ZooKeeper等分布式應(yīng)用程序協(xié)調(diào)服務(wù),整個(gè)大數(shù)據(jù)開源生態(tài)繁花似錦!

總結(jié)

以上是生活随笔為你收集整理的盘点大数据生态圈,那些繁花似锦的开源项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。