日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Facebook大数据技术架构的演进路线

發(fā)布時間:2024/3/13 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Facebook大数据技术架构的演进路线 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
 ? ? Facebook一直是大數(shù)據(jù)技術(shù)最積極的應(yīng)用者,因為它擁有的數(shù)據(jù)量極其巨大,一份資料顯示2011年它擁有的壓縮數(shù)據(jù)已經(jīng)有25PB,未壓縮數(shù)據(jù)150PB,每天產(chǎn)生的未壓縮的新數(shù)據(jù)有400TB。在Facebook,大數(shù)據(jù)技術(shù)被廣泛應(yīng)用在廣告、新聞源、消息/聊天、搜索、站點安全、特定分析、報告等各個領(lǐng)域。Facebook也是Apache大數(shù)據(jù)開源項目的最大貢獻者之一。Facebook是2007年前后正式轉(zhuǎn)向Hadoop計算框架,隨之它向Apache基金會貢獻了大名鼎鼎的Hive、ZooKeeper、Scribe、Cassandra等開源工具,當前Facebook的開源進程仍在積極推進著。Facebook大數(shù)據(jù)技術(shù)架構(gòu)經(jīng)歷了三個演變階段。

??? Facebook早期的大數(shù)據(jù)技術(shù)架構(gòu)是建立在Hadoop、HBase、Hive、Scribe等開源工具基礎(chǔ)上的。日志數(shù)據(jù)流從HTTP服務(wù)器產(chǎn)生,通過日志收集系統(tǒng)Scribe耗費秒級時間傳送到共享存儲NFS文件系統(tǒng),然后通過小時級的Copier/Loader(即MapReduce作業(yè))將數(shù)據(jù)文件上傳到Hadoop。數(shù)據(jù)摘要通過每天例行的流水作業(yè)產(chǎn)生,它是基于Hive的類SQL語言開發(fā),結(jié)果會定期會更新到前端的Mysql服務(wù)器,以便通過OLTP工具產(chǎn)生報表。Hadoop集群節(jié)點有3000個,擴展性和容錯性方面的問題能夠很好地解決,但是早期系統(tǒng)的主要問題是整體的處理延遲較大,從日志產(chǎn)生起1~2天后才能得到最終的報表。

??? Facebook當前的大數(shù)據(jù)技術(shù)架構(gòu)是在早期架構(gòu)基礎(chǔ)上對數(shù)據(jù)傳輸通道和數(shù)據(jù)處理系統(tǒng)進行了優(yōu)化,如圖所示,主要分為分布式日志系統(tǒng)Scribe、分布式存儲系統(tǒng)HDFS和HBase、分布式計算和分析系統(tǒng)(MapReduce、Puma和Hive)等。

其中,Scribe日志系統(tǒng)用于聚合來自大量HTTP服務(wù)器的日志數(shù)據(jù)。Thrift是Facebook提供的軟件框架,用于跨語言的服務(wù)開發(fā),能夠在C 、Java、PHP 、Python和Ruby等語言之間實現(xiàn)無縫的支持。采用Thrift RPC來調(diào)用Scribe日志收集服務(wù)進行日志數(shù)據(jù)匯總。Scribe Policy是日志流量和模型管理節(jié)點,將元數(shù)據(jù)傳送給Scribe客戶端和Scribe HDFS,采集的日志數(shù)據(jù)存儲在Scribe HDFS。Facebook對早期系統(tǒng)優(yōu)化后的數(shù)據(jù)通道稱為Data?Freeway,能夠處理峰值9GB/s的數(shù)據(jù)并且端到端的延遲在10s以內(nèi),支持超過2500種的日志種類。Data?Freeway主要包括4個組件,Scribe、Calligraphus、Continuous?Copier和PTail。Scribe用于客戶端,負責(zé)通過Thrift RPC發(fā)送數(shù)據(jù);Calligraphus在中間層梳理數(shù)據(jù)并寫到HDFS,它提供了日志種類的管理,利用Zookeeper進行輔助;Continuous?Copier將文件從一個HDFS拷貝到另一個HDFS;PTail并行地tail多個HDFS上的目錄,并寫文件數(shù)據(jù)到標準輸出。在當前架構(gòu)中,一部分數(shù)據(jù)處理仍然以批處理的方式通過MapReduce進行小時級的處理,存儲在中央的HDFS,每天通過Hive進行分析處理。另一部分接近實時的數(shù)據(jù)流則通過Puma來進行分鐘級的處理。Facebook對專門分析提供Peregrine(Hipal)工具、對周期性分析提供Nocron工具進行分析。

??? Facebook未來的大數(shù)據(jù)技術(shù)架構(gòu)的雛形已經(jīng)出來。首先開源的是可能替代Hadoop系統(tǒng)中MapReduce的Corona,類似于Yahoo提出的YARN。Corona最大的一個進步是其集群管理器做到了基于CPU、內(nèi)存和其他作業(yè)處理的需求資源的管理,這可以使得Corona既可以處理MapReduce 作業(yè),也可以處理非MapReduce 作業(yè),使Hadoop集群的應(yīng)用領(lǐng)域更加廣泛。二是Facebook最新的交互式大數(shù)據(jù)查詢系統(tǒng)Presto,類似于Cloudera的Impala和Hortonworks的Stinger,解決了Facebook迅速膨脹的海量數(shù)據(jù)倉庫快速查詢需求。據(jù)Facebook稱,使用Presto進行簡單的查詢只需要幾百毫秒,即使是非常復(fù)雜的查詢,也只需數(shù)分鐘便可完成,它在內(nèi)存中運行,并且不會向磁盤寫入。第三是Wormhole流計算系統(tǒng),類似于Twiitter的Storm和Yahoo的Storm-YARN。第四個重要項目是Prism,它能夠運行一個超大的、能夠?qū)⑷驍?shù)據(jù)中心都連起來的Hadoop集群,可能在一個數(shù)據(jù)中心宕掉的時候即時的將數(shù)據(jù)重新分布,這是一個與Google的Spanner類似的項目。

??? Facebook的大數(shù)據(jù)技術(shù)架構(gòu)演進路徑代表了大數(shù)據(jù)技術(shù)的發(fā)展路線,難能可貴的是,開源是Facebook一貫的路線,它和Yahoo等公司一起為大數(shù)據(jù)技術(shù)的發(fā)展作出了巨大貢獻。

?

本文內(nèi)容節(jié)選自北京賽智時代信息技術(shù)咨詢有限公司(CIOManage咨詢)的《2013-2014年中國互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)應(yīng)用年度研究報告》。

總結(jié)

以上是生活随笔為你收集整理的Facebook大数据技术架构的演进路线的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。