日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

分布式服务常见问题—访问量统计如何做?

發(fā)布時間:2024/4/15 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分布式服务常见问题—访问量统计如何做? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文作者:逖靖寒的世界

原文地址:分布式實時統(tǒng)計系統(tǒng)--RAINBIRD

最近Twitter開發(fā)了一款分布式實時統(tǒng)計系統(tǒng)Rainbird。Rainbird可以用于實時數(shù)據(jù)的統(tǒng)計:

  • 統(tǒng)計網(wǎng)站中每一個頁面,域名的點擊次數(shù)
  • 內部系統(tǒng)的運行監(jiān)控(統(tǒng)計被監(jiān)控服務器的運行狀態(tài))
  • 記錄最大值和最小值

性能要求

作為大型網(wǎng)站的分布式應用,需要具備以下性能:?

  • 極高的寫入性能,可以達到100,000的WPS
  • 非常高的讀取性能,可以達到10,000s的RPS
  • 高度的可擴展性,包括讀取和存儲等等,能夠擴展到100+ TB的量級
  • 讀取速度響應間隔短,絕大多數(shù)的讀取速度應該不超過100ms

系統(tǒng)組件

Rainbird一款基于Zookeeper, Cassandra, Scribe, Thrift的分布式實時統(tǒng)計系統(tǒng),這些基礎組件的基本功能如下:

  • Zookeeper:Hadoop子項目中的一款分布式協(xié)調系統(tǒng),用于控制分布式系統(tǒng)中各個組件中的一致性
  • Cassandra:NoSQL中一款非常出色的產(chǎn)品,集合了Dynamo和Bigtable特性的分布式存儲系統(tǒng),用于存儲需要進行統(tǒng)計的數(shù)據(jù),并且提供客戶端進行統(tǒng)計數(shù)據(jù)的查詢。(需要使用分布式Counter補丁CASSANDRA-1072)
  • Scribe:Facebook開源的一款分布式日志收集系統(tǒng),用于在系統(tǒng)中將各個需要統(tǒng)計的數(shù)據(jù)源收集到Cassandra中。
  • Thrift:Facebook開源的一款跨語言C/S網(wǎng)絡通信框架,開發(fā)人員基于這個框架可以輕易地開發(fā)C/S應用。

整體設計

Rainbird的設計架構圖如下:

整個Rainbird系統(tǒng)中各個組件之間的協(xié)調和容災處理由ZooKeeper負責,Cassandra負責整個數(shù)據(jù)的存儲和統(tǒng)計。Front End中部署了Scribe,收集需要統(tǒng)計的數(shù)據(jù),然后將收集到數(shù)據(jù)實時地發(fā)生到Rainbird Aggregator中。Rainbird Aggregator將緩存收集的數(shù)據(jù)(1M),并將緩存的數(shù)據(jù)進行一次預處理,然后再將數(shù)據(jù)一次性批量寫入到Cassandra中。這里預處理的作用類似于MapReduce框架中的combiner的作用,在Maper端做Reduce。Rainbird Query接受用戶的查詢請求,直接到Cassandra中查詢已經(jīng)統(tǒng)計好的數(shù)據(jù)返回給客戶端。

頁面URL統(tǒng)計示例

假設我們需要統(tǒng)計網(wǎng)站的頁面點擊的情況,那么如何使用Rainbird來進行統(tǒng)計呢?在統(tǒng)計的過程中,本博客中一篇文章的URL為:http://www.cnblogs.com/gpcuster/tag/Cassandra/。我們可以將這個URL分拆為以下四個部分com、cnblogs、www、http://www.cnblogs.com/gpcuster/tag/Cassandra/?然后以分拆后的這四個部分組合為以下Key:

  • com,cnblogs,www,http://www.cnblogs.com/gpcuster/tag/Cassandra/
  • com,cnblogs,www
  • com,cnblogs
  • com

最后將這些Key的數(shù)據(jù)寫入Cassandra中。這樣就完成了整個統(tǒng)計的過程。如果需要查詢頁面http://www.cnblogs.com/gpcuster/tag/Cassandra/被訪問了多少次,只要在Cassandra中查詢Key為com,cnblogs,www,http://www.cnblogs.com/gpcuster/tag/Cassandra/的值即可。如果需要查詢頁面http://www.cnblogs.com被訪問了多少次,只要在Cassandra中查詢Key為com,cnblogs,www的值即可。如果要查詢頁面http://*cnblogs.com被訪問了多少次,也可以進行類似的查詢即可。

更多參考

  • 如果希望了解更詳細的信息,可以參考:http://www.slideshare.net/kevinweil/rainbird-realtime-analytics-at-twitter-strata-2011
  • 另外,想了解更多關于Cassandra的信息,可以參考:http://www.cnblogs.com/gpcuster/tag/Cassandra/
  • 想了解更多關于ZooKeeper的信息,可以參考:http://www.cnblogs.com/gpcuster/tag/ZooKeeper/

總結

以上是生活随笔為你收集整理的分布式服务常见问题—访问量统计如何做?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。