如果光猫+hadoop,有化学反应吗?
????????運營商關注光網的發展與客戶的使用體驗,客戶的互聯網使用體驗提質一般采用兩種方式進行處理。一是觀注在OLT上每個用戶的光衰進行主動處理,二是通過客服熱線或用戶測試網站進行被動處理。但這種方式仍存在問題,通過OLT主動查看用戶的光衰只關注了最后一公里,而客戶是觀注端到端的使用體驗,該方式仍存在弊端。今天我們來探討,有什么辦法可以做到端到端的互聯網業務主動改善?
? ? ? ?一、要想知道魚在想什么,就需要做一條魚。我們需要變成用戶來進行業務體驗。
? ? ? ? 建議從離用戶最近地方主動發起端到端的業務使用體驗探測。理論上光貓是一臺小型的Linux服務器,可以在光貓上預置模擬http等訪問的程序,并通過log日志的方式進行數據的記錄。這樣可實現用戶體驗信息的主動檢測。
? ? ? ?二、如何將光貓上的log文件進行大數據分析,以實時呈現故障預警、或應用于指導網絡擴容。
? ? 1、整個系統的架構分為兩部分。上面部分用于離線計算,指導擴容。下面部分用于實時流式計算,指導故障預警。
?
????2、首先我們來講實時流式計算部分。光貓不斷產生http探測日志, 然后使用Flume去監聽探測日志,并實時把每一條日志信息抓取下來存儲集中式Flume agent中。Flume agent的數據存進Kafka消息系統中, 接著由Storm系統消費Kafka中的消息,同時消費記錄由Zookeeper集群管理,這樣即使Kafka宕機重啟后也能找到上次的消費記錄,接著從上次宕機點繼續從Kafka的Broker中進行消費。但是由于存在先消費后記錄日志或者先記錄后消費的非原子操作,如果出現剛好消費完一條消息并還沒將信息記錄到Zookeeper的時候就宕機的類似問題,或多或少都會存在少量數據丟失或重復消費的問題, 其中一個解決方案就是Kafka的Broker和Zookeeper都部署在同一臺機子上。接下來就是使用用戶定義好的Storm去進行日志信息的分析并輸出到HBase,最后用Web APP去讀取HBase中信息并展示給監控中心。之所以在Flume和Storm中間加入一層Kafka消息系統,就是因為在高并發的條件下, 日志的數據會井噴式增長,如果Storm的消費速度慢于日志的產生速度,加上Flume自身的局限性,必然會導致大量數據滯后并丟失,所以加了Kafka消息系統作為數據緩沖區,而且Kafka是基于log File的消息系統,也就是說消息能夠持久化在硬盤中,再加上其充分利用Linux的I/O特性,提供了可觀的吞吐量。
???????? 如果數據量較大,可以在HBase旁再旁掛一個Redis數據庫,這樣Web App的數據呈現效率會更高。Redis是內存數據庫,但也可以進行數據的持久化存儲,同時具有很高的數據讀寫速度。
?
? ? ? ? 3、首先我們來講離線計算部分。通過Flume的多個Sink,將日志文件同時寫入HDFS中。通過Spark的定期離線任務處理,將HDFS中的文件進行分析處理,因Spark基于mapreduce,處理效率較低,適用于離線處理。將非實時的數據按周、按月處理后,提供給管理人員,供升級擴容等建設使用。之所以采用HBase存儲輸出數據,是為了簡化本項目中的數據庫類型,目前HDFS進行文件存儲、HBase進行類結構化數據的存儲足夠。
希望以上文章能幫到您。
更多內容實時更新,請訪問公眾號。? ??
?
點擊這里,獲取最高¥1888阿里云產品通用代金券
?
總結
以上是生活随笔為你收集整理的如果光猫+hadoop,有化学反应吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图论】腾讯大战360
- 下一篇: CCProxy代理