非常复杂,上双11数据大屏背后的秘密:大规模流式增量计算及应用
回顧大數據技術領域大事件,最早可追溯到06年Hadoop的正式啟動,而環顧四下,圍繞著數據庫及數據處理引擎,業內充斥著各種各樣的大數據技術。這是個技術人的好時代,僅數據庫領域熱門DB就有300+,圍繞著Hadoop生態圈的大數據處理技術更是繁花似錦。在云棲社區2017在線技術峰會大數據技術峰會上,阿里云大數據計算平臺架構師錢正平做了題為《大規模流式增量計算及應用》的分享,錢正平結合阿里巴巴真實的業務場景為大家分享了流式增量計算編程方面的挑戰和當前的解決方案。
首先從理解什么是數據流開始今天的分享,其實在真實的世界中,大部分的數據都是連續產生的數據流,比如手機上產生的GPS信號、用戶在互聯網上的行為、在線搜索、用戶的點擊、社交網絡分享、即時通信以及一些傳感器和物聯網設備采集的日志信息等,這些數據都是連續產生的,自然就形成了數據流,在這些數據流產生以后,在很多場景下對于數據流的實時分析就會產生很大的價值。
接下來從大家比較熟悉的數據場景切入,比如大家經常會關注的股市情況,股價的波動其實就是實時數據的分析和聚合,除此之外大家在日常生活中還可能比較關心天氣預報,可能會根據實時的信息來看比如當前的臺風的情況,這些都是大家習以為常的,也已經深入大家生活的實時數據分析。
而隨著實時數據源的越來越多,實時數據的規模也越來越大,可以應用的場景也越來越多,實時數據的應用也正在往更多的領域深入。比如像每年的天貓雙11全球狂歡節,阿里巴巴就有一個實時大屏,左圖上是2015年的情況,當時在第35分鐘的時候就已經有了200億的銷售額,同樣的2016年也是一樣,所有的交易數據都會在秒級之內反映在數據大屏之上,再比如在2015年還有模擬的一個地球,可以看到從賣家到買家的訂單都會被實時地刻畫出來,這在商業領域將會給大家一個非常直觀的印象,也可以用于輔助商業決策。
特別是在安全以及監控這些領域,數據有時候除了用于看以外還可以預先設定很多規則,基于流計算的“規則引擎”提供了傳統的安全監控系統無法提供的海量數據處理能力,根據這些規則就可以省去很多的人力勞動,可以自動化地進行報警,利用大規模分布式集群實時計算和分析監控數據,避免人肉數據檢查的低效,有效擴大監控范圍,提升監控時效。這方面目前有很多的應用,比如像監控電網的運作等。
除了判斷簡單規則以外,還可以通過實時分析數據去發現一些規律,去實現更多的機器智能。這里舉的是阿里巴巴幫助協鑫光伏的一個案例,協鑫光伏是一個專門加工太陽能電池的企業,它的設備都面的每個設備都有幾百個傳感器,加起來就有成千上萬路信號輸入,如果通過人去理解傳感器的行為,去檢測或者預測哪一個設備將會發生故障再去更換,這中間的延遲就會造成很大的浪費,也就會導致次品率上升的問題。而通過實時的數據分析加上人工智能的算法最終實現了機器自動預警和判斷,這樣不僅提高了工作效率,甚至還能夠預先自動提示操作人員對于設備的某些部件進行更換,最終實現對于良品率的提高,進而提高企業的收益。
全文點擊:http://click.aliyun.com/m/13434/
轉載于:https://www.cnblogs.com/iyulang/p/6547798.html
總結
以上是生活随笔為你收集整理的非常复杂,上双11数据大屏背后的秘密:大规模流式增量计算及应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: struts2静态方法和动态方法调用
- 下一篇: 19:二叉树的镜像