非常复杂,上双11数据大屏背后的秘密:大规模流式增量计算及应用
回顧大數(shù)據(jù)技術(shù)領(lǐng)域大事件,最早可追溯到06年Hadoop的正式啟動(dòng),而環(huán)顧四下,圍繞著數(shù)據(jù)庫及數(shù)據(jù)處理引擎,業(yè)內(nèi)充斥著各種各樣的大數(shù)據(jù)技術(shù)。這是個(gè)技術(shù)人的好時(shí)代,僅數(shù)據(jù)庫領(lǐng)域熱門DB就有300+,圍繞著Hadoop生態(tài)圈的大數(shù)據(jù)處理技術(shù)更是繁花似錦。在云棲社區(qū)2017在線技術(shù)峰會(huì)大數(shù)據(jù)技術(shù)峰會(huì)上,阿里云大數(shù)據(jù)計(jì)算平臺(tái)架構(gòu)師錢正平做了題為《大規(guī)模流式增量計(jì)算及應(yīng)用》的分享,錢正平結(jié)合阿里巴巴真實(shí)的業(yè)務(wù)場(chǎng)景為大家分享了流式增量計(jì)算編程方面的挑戰(zhàn)和當(dāng)前的解決方案。
首先從理解什么是數(shù)據(jù)流開始今天的分享,其實(shí)在真實(shí)的世界中,大部分的數(shù)據(jù)都是連續(xù)產(chǎn)生的數(shù)據(jù)流,比如手機(jī)上產(chǎn)生的GPS信號(hào)、用戶在互聯(lián)網(wǎng)上的行為、在線搜索、用戶的點(diǎn)擊、社交網(wǎng)絡(luò)分享、即時(shí)通信以及一些傳感器和物聯(lián)網(wǎng)設(shè)備采集的日志信息等,這些數(shù)據(jù)都是連續(xù)產(chǎn)生的,自然就形成了數(shù)據(jù)流,在這些數(shù)據(jù)流產(chǎn)生以后,在很多場(chǎng)景下對(duì)于數(shù)據(jù)流的實(shí)時(shí)分析就會(huì)產(chǎn)生很大的價(jià)值。
接下來從大家比較熟悉的數(shù)據(jù)場(chǎng)景切入,比如大家經(jīng)常會(huì)關(guān)注的股市情況,股價(jià)的波動(dòng)其實(shí)就是實(shí)時(shí)數(shù)據(jù)的分析和聚合,除此之外大家在日常生活中還可能比較關(guān)心天氣預(yù)報(bào),可能會(huì)根據(jù)實(shí)時(shí)的信息來看比如當(dāng)前的臺(tái)風(fēng)的情況,這些都是大家習(xí)以為常的,也已經(jīng)深入大家生活的實(shí)時(shí)數(shù)據(jù)分析。
而隨著實(shí)時(shí)數(shù)據(jù)源的越來越多,實(shí)時(shí)數(shù)據(jù)的規(guī)模也越來越大,可以應(yīng)用的場(chǎng)景也越來越多,實(shí)時(shí)數(shù)據(jù)的應(yīng)用也正在往更多的領(lǐng)域深入。比如像每年的天貓雙11全球狂歡節(jié),阿里巴巴就有一個(gè)實(shí)時(shí)大屏,左圖上是2015年的情況,當(dāng)時(shí)在第35分鐘的時(shí)候就已經(jīng)有了200億的銷售額,同樣的2016年也是一樣,所有的交易數(shù)據(jù)都會(huì)在秒級(jí)之內(nèi)反映在數(shù)據(jù)大屏之上,再比如在2015年還有模擬的一個(gè)地球,可以看到從賣家到買家的訂單都會(huì)被實(shí)時(shí)地刻畫出來,這在商業(yè)領(lǐng)域?qū)?huì)給大家一個(gè)非常直觀的印象,也可以用于輔助商業(yè)決策。
特別是在安全以及監(jiān)控這些領(lǐng)域,數(shù)據(jù)有時(shí)候除了用于看以外還可以預(yù)先設(shè)定很多規(guī)則,基于流計(jì)算的“規(guī)則引擎”提供了傳統(tǒng)的安全監(jiān)控系統(tǒng)無法提供的海量數(shù)據(jù)處理能力,根據(jù)這些規(guī)則就可以省去很多的人力勞動(dòng),可以自動(dòng)化地進(jìn)行報(bào)警,利用大規(guī)模分布式集群實(shí)時(shí)計(jì)算和分析監(jiān)控?cái)?shù)據(jù),避免人肉數(shù)據(jù)檢查的低效,有效擴(kuò)大監(jiān)控范圍,提升監(jiān)控時(shí)效。這方面目前有很多的應(yīng)用,比如像監(jiān)控電網(wǎng)的運(yùn)作等。
除了判斷簡(jiǎn)單規(guī)則以外,還可以通過實(shí)時(shí)分析數(shù)據(jù)去發(fā)現(xiàn)一些規(guī)律,去實(shí)現(xiàn)更多的機(jī)器智能。這里舉的是阿里巴巴幫助協(xié)鑫光伏的一個(gè)案例,協(xié)鑫光伏是一個(gè)專門加工太陽能電池的企業(yè),它的設(shè)備都面的每個(gè)設(shè)備都有幾百個(gè)傳感器,加起來就有成千上萬路信號(hào)輸入,如果通過人去理解傳感器的行為,去檢測(cè)或者預(yù)測(cè)哪一個(gè)設(shè)備將會(huì)發(fā)生故障再去更換,這中間的延遲就會(huì)造成很大的浪費(fèi),也就會(huì)導(dǎo)致次品率上升的問題。而通過實(shí)時(shí)的數(shù)據(jù)分析加上人工智能的算法最終實(shí)現(xiàn)了機(jī)器自動(dòng)預(yù)警和判斷,這樣不僅提高了工作效率,甚至還能夠預(yù)先自動(dòng)提示操作人員對(duì)于設(shè)備的某些部件進(jìn)行更換,最終實(shí)現(xiàn)對(duì)于良品率的提高,進(jìn)而提高企業(yè)的收益。
全文點(diǎn)擊:http://click.aliyun.com/m/13434/
轉(zhuǎn)載于:https://www.cnblogs.com/iyulang/p/6547798.html
總結(jié)
以上是生活随笔為你收集整理的非常复杂,上双11数据大屏背后的秘密:大规模流式增量计算及应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: struts2静态方法和动态方法调用
- 下一篇: 19:二叉树的镜像