(下)挖掘传统行业日志大数据的无限价值

8 月 27 日晚上八點(diǎn),七牛云高級解決方案架構(gòu)師程雪松在 IT 大咖說進(jìn)行了題為《挖掘傳統(tǒng)行業(yè)日志大數(shù)據(jù)的無限價(jià)值》的直播,對傳統(tǒng)行業(yè)運(yùn)維常見困境和統(tǒng)一日志管理的必要性進(jìn)行了深入解析,并通過 Pandora 的一些真實(shí)用戶案例和大家詳細(xì)闡述了如何挖掘傳統(tǒng)行業(yè)日志大數(shù)據(jù)的無限價(jià)值。本文是對直播內(nèi)容的整理。
下篇主要剖析了日志管理平臺建設(shè)關(guān)注的要點(diǎn)以及分享了 Pandora 的一些真實(shí)用戶案例,并針對聽眾的提問進(jìn)行了解答。
監(jiān)控與告警
數(shù)據(jù)分析過后,需要形成相關(guān)的數(shù)據(jù)的監(jiān)控和告警。比如把一些我關(guān)心的重要的指標(biāo)監(jiān)控固化下來,定期地對這些數(shù)據(jù)進(jìn)行監(jiān)控,一旦它出現(xiàn)問題,我需要及時(shí)地反映出來,形成一些告警方面的通知。最好是能夠把搜索結(jié)果直接保存為告警設(shè)置。比如說我搜索出一個(gè)結(jié)果出來之后,我覺得這個(gè)結(jié)果很重要,這個(gè)分析出來的結(jié)果,我不僅只是想查這一次,需要它一直能夠被監(jiān)控起來。一旦這個(gè)監(jiān)控值出現(xiàn)問題,我就能夠報(bào)警。那么就可以另存為報(bào)警以后去設(shè)置相關(guān)的一些策略,比如說我要去監(jiān)控這個(gè)指標(biāo)的最大值、最小值、平均值等等,然后這個(gè)值一旦突破了某個(gè)閾值,就能夠通過短信或者郵件的方式,來進(jìn)行及時(shí)的報(bào)警,這就是監(jiān)控報(bào)警的一個(gè)功能,它是必須要有的。
開箱即用的報(bào)表
然后就是可視化的展現(xiàn),能夠支持各種各樣的圖表,把一些比較難懂的文本型的日志,或者數(shù)據(jù)型的日志,變成更易讀更直觀的一些報(bào)表,制作成一些大家比較能夠理解的比如說餅圖,柱狀圖,折線圖,甚至你可能會(huì)遇到像中國地圖,世界地圖等等。我預(yù)先要支持這樣的圖表,能夠很方便的去定義這些報(bào)表的功能,把數(shù)據(jù)輸入進(jìn)去,選擇相關(guān)的圖表的格式,自動(dòng)去生成這樣的一些報(bào)表。這樣的話你就能夠很方便地去體現(xiàn)你的日志分析結(jié)果和相關(guān)參數(shù)的監(jiān)控。
大屏展示
? 而且最終也能支持大屏展示,能夠投射到指揮臺或者監(jiān)控大屏。讓我們的 IT 運(yùn)維人員或者 IT 部門的領(lǐng)導(dǎo),或者甚至是公司的老板,能夠方便看到信息化平臺的情況,內(nèi)部系統(tǒng)是如何運(yùn)行的,現(xiàn)在的狀態(tài)是什么樣,這就是一個(gè)大屏的展示。
機(jī)器學(xué)習(xí)(異常檢測)
現(xiàn)在對于日志分析,僅僅是對已有的數(shù)據(jù)進(jìn)行固化分析或是已有的一些策略進(jìn)行分析已經(jīng)無法滿足運(yùn)維日新月異的要求,其實(shí)很多 IT 的問題,最開始的時(shí)候都是未知的。甚至在一開始對業(yè)務(wù)進(jìn)行監(jiān)控的時(shí)候,我可能都很難去預(yù)想到監(jiān)控策略應(yīng)該怎么樣去設(shè)計(jì),或者很難在一開始就提出來監(jiān)控指標(biāo)的閾值應(yīng)該是多少。
歷史數(shù)據(jù)分析

所以如果說日志分析平臺能夠引入現(xiàn)在一些新的大數(shù)據(jù)的技術(shù),比如說深度學(xué)習(xí)或者機(jī)器學(xué)習(xí),就能夠很方便的去對歷史數(shù)據(jù)進(jìn)行分析,告訴我中間的異常值。舉一個(gè)例子,下面的這一個(gè)截圖其實(shí)是一個(gè)企業(yè)的數(shù)據(jù)流量的變化情況,然后我們會(huì)發(fā)現(xiàn),代表實(shí)際數(shù)據(jù)的藍(lán)色線其實(shí)并不是平緩的,而是呈現(xiàn)一個(gè)周期變化的規(guī)律。傳統(tǒng)的我們對于流量的監(jiān)控就是畫兩條平行線,把所有的流量夾在里面,這樣的話一旦出現(xiàn)流量的實(shí)時(shí)值超過我的閾值的時(shí)候就會(huì)報(bào)警。然后會(huì)推送相對應(yīng)的郵件或者短信的方式去告知我的運(yùn)維人員。但是我們會(huì)發(fā)現(xiàn),類似中間小箭頭的地方就會(huì)出現(xiàn)漏報(bào),就是說,看起來它其實(shí)并沒有突破整個(gè)所有歷史周期里面的峰值和最低值,但是我們看到它其實(shí)是不符合歷史數(shù)據(jù)的變化規(guī)律的。
那么這個(gè)時(shí)候如果我們能夠基于不同時(shí)段,靈活動(dòng)態(tài)的去調(diào)整閾值,這樣的話就能夠很方便的發(fā)現(xiàn)這些雖然沒有突破歷史閾值但是并不符合周期性變化規(guī)律的一個(gè)數(shù)據(jù)。這樣其實(shí)是能夠很方便的去找到原來可能遺漏的一些數(shù)據(jù)異常點(diǎn)。而且這些漏報(bào)的異常點(diǎn)很可能會(huì)成為未來很大的風(fēng)險(xiǎn),那么我們?nèi)绻軌蛟谶@個(gè)時(shí)候及時(shí)地發(fā)現(xiàn)這些異常點(diǎn),及時(shí)地去介入,把這樣的風(fēng)險(xiǎn),甚至是未來的一些故障防患于未然。這是一個(gè)歷史數(shù)據(jù)分析的比較經(jīng)典的一個(gè)場景。
預(yù)測未來
我們既然能夠基于歷史數(shù)據(jù)做全面的學(xué)習(xí)和分析,那么我們也希望能夠去配合實(shí)時(shí)數(shù)據(jù)的增量學(xué)習(xí),去準(zhǔn)確預(yù)測未來的趨勢,去支持更多的一些智能的特性。這個(gè)在什么場景會(huì)用到呢?
比如說我們在未來的幾天之內(nèi)想做一個(gè)業(yè)務(wù)的變更或者升級,但是我不知道哪個(gè)時(shí)間點(diǎn)最合適影響最小,那往常可能我們都會(huì)選擇深夜例如半夜十二點(diǎn)來做系統(tǒng)交割或者新系統(tǒng)上線,這個(gè)對于大家來講熬夜的壓力很大。但如果我們能夠通過機(jī)器學(xué)習(xí)預(yù)測未來的整個(gè)流量變化情況,我們就能夠很方便的去找到一個(gè)流量低,又不需要給大家?guī)硖嗌眢w負(fù)擔(dān)的時(shí)間點(diǎn)來做我們的系統(tǒng)變更。
極簡使用

機(jī)器學(xué)習(xí)固然好,但大家很多時(shí)候會(huì)認(rèn)為機(jī)器學(xué)習(xí)是一個(gè)特別高大上的東西,覺得算法模型是個(gè)特別復(fù)雜的東西。那么會(huì)想我有沒有能力玩,能不能玩得轉(zhuǎn),能不能很方便地去使用這樣一些機(jī)器學(xué)習(xí)的功能和特性。那能否自動(dòng)化的、靈活化的、智能化的選擇算法,自動(dòng)生成相關(guān)的模型,讓我們的運(yùn)維人員能夠低門檻甚至零門檻來使用這個(gè)機(jī)器學(xué)習(xí)的功能就變得很重要。機(jī)器學(xué)習(xí)也是現(xiàn)在大家在選擇日志管理平臺的時(shí)候可能需要去考慮的一個(gè)方向。
開放性(API)
? 最后是開放性 api,其實(shí)很多時(shí)候運(yùn)維人員在日常使用日志管理平臺的過程當(dāng)中不只是簡單的登錄到平臺上面通過你的可視化界面去使用你的功能。日志分析平臺是需要和業(yè)務(wù)系統(tǒng),分析系統(tǒng)或者用戶已有的監(jiān)控平臺進(jìn)行對接的。甚至很多時(shí)候?qū)θ罩痉治銎脚_的使用,并不是直接點(diǎn)進(jìn)你的界面,而是要通過接口的方式來去使用你的能力。所以整個(gè)日志分析平臺的開放性會(huì)是大家在日常使用過程中必須要考慮的一個(gè)問題。考慮到我們會(huì)去對接非常多的,不同的應(yīng)用開發(fā)商開發(fā)的不同的業(yè)務(wù)系統(tǒng),甚至說不同的監(jiān)控軟件,所以開放性的 api 的豐富程度其實(shí)是一個(gè)非常重要的指標(biāo)。那現(xiàn)在基本上主流的語言包括像 Java,php,python,C,C++,JavaScript,Go 等等這樣的一些語言,最好都需要支持到。所以開放性也是大家在去對日志分析平臺進(jìn)行選擇時(shí)必須考慮的一個(gè)問題。
七牛云日志分析平臺 Pandora
那么有沒有這樣一個(gè)平臺能夠解決之前提到的所有問題呢?有,就是七牛的日志分析平臺 Pandora。它能夠?qū)崿F(xiàn)對于日志的全生命周期的智能管理,比如之前提到的數(shù)據(jù)的收集、清洗、存儲(chǔ)、搜索、監(jiān)控告警、分析、報(bào)表、開放等等相關(guān)方面,我們都有相關(guān)的技術(shù)和產(chǎn)品能夠去滿足用戶的需求。Pandora 能夠?qū)崿F(xiàn)對于日志全生命周期的智能管理,適用于像運(yùn)維分析,安全審計(jì),業(yè)務(wù)數(shù)據(jù)分析等等各種場景,針對像互聯(lián)網(wǎng),智能硬件,智能制造等行業(yè),都能夠提供良好的支撐和價(jià)值。

這張圖是現(xiàn)在 Pandora 能力的全景圖,對應(yīng)之前提到的八個(gè)方面,能夠發(fā)現(xiàn)其實(shí) Pandora 已經(jīng)覆蓋了用戶對于日志分析平臺的所有要求。 logkit 是我們的數(shù)據(jù)采集平臺,能夠支持?jǐn)?shù)據(jù)的采集、解析、轉(zhuǎn)換、發(fā)送,然后 pipeline 就是基于大數(shù)據(jù)的技術(shù),能夠幫助用戶進(jìn)行實(shí)時(shí)和離線分析的一個(gè)大數(shù)據(jù)平臺。insight 就是數(shù)據(jù)分析平臺,支持對日志統(tǒng)一的存儲(chǔ),搜索,報(bào)表,監(jiān)控告警,api,分析與預(yù)測,包括機(jī)器學(xué)習(xí)等等相關(guān)的功能。
總結(jié)一下 Pandora 的優(yōu)勢就是六點(diǎn):數(shù)據(jù)規(guī)模大,處理速度快,開放接口巧,生態(tài)支持多,用戶體驗(yàn)爽,公有云經(jīng)驗(yàn)足。Pandora 不僅支持公有云的服務(wù),我們也可以做私有化的部署。這個(gè)可以根據(jù)用戶實(shí)際的情況來靈活選擇。
數(shù)據(jù)規(guī)模大 Pandora 現(xiàn)在支持在公有云上完全橫向擴(kuò)展的存儲(chǔ)和計(jì)算設(shè)計(jì)。現(xiàn)在累計(jì)在云上的存儲(chǔ)數(shù)據(jù)超過了 40 個(gè) pb,累計(jì)的計(jì)算數(shù)據(jù)超過 500 個(gè) pb,傳統(tǒng)的 ELK 的方式是無法滿足這么大體量的數(shù)據(jù)的要求。
處理速度快 Pandora 支持實(shí)時(shí)計(jì)算能夠做到毫秒到秒級的響應(yīng)。所有的日志能夠做到入庫打點(diǎn)毫秒級的響應(yīng)。例如說系統(tǒng)端或者數(shù)據(jù)源端能夠?qū)崟r(shí)產(chǎn)生的日志,我們就能夠?qū)崟r(shí)把這些日志采集到我們的平臺上來,而且保證數(shù)據(jù)不丟失不冗余。
開放接口巧 我們所有的操作都有對應(yīng)的 api 的支持,能夠很容易的去跟第三方的系統(tǒng)進(jìn)行結(jié)合,這是我們的第三個(gè)優(yōu)勢叫做開放接口巧。
生態(tài)支持多 我們支持現(xiàn)在業(yè)界主流的絕大多數(shù)的關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫,消息隊(duì)列及一些大數(shù)據(jù)相關(guān)組件。具體的列表大家可以在我們的官網(wǎng)上看到。
用戶體驗(yàn)爽 比如剛剛我們提到的字段自動(dòng)統(tǒng)計(jì)、劃詞分析、聯(lián)合搜索、機(jī)器學(xué)習(xí)等等細(xì)節(jié)功能。我們都為用戶預(yù)先考慮到了,這些所有的易用性細(xì)節(jié)我們超過 200 項(xiàng),我們所有的開發(fā)的目標(biāo)和要求就是降低用戶的心智負(fù)擔(dān),不要把日志分析看成是特別復(fù)雜的一個(gè)事情,讓大家能夠低門檻甚至零門檻的來使用我們的日志分析產(chǎn)品。簡單的把你的日志導(dǎo)入平臺,然后方便的得到日志分析的結(jié)果,能夠給用戶帶來業(yè)務(wù)方面的價(jià)值和提升。這個(gè)是 Pandora 希望能夠去實(shí)現(xiàn)的事情。
公有云經(jīng)驗(yàn)足 最后一個(gè)優(yōu)勢,我們通過一些數(shù)據(jù)來證明我們的能力。第一個(gè)是現(xiàn)在每天向公有云上流入的數(shù)據(jù)超過 250 個(gè) tb,超過 3650 億條日志。現(xiàn)在我們服務(wù)的客戶超過 200 家,每天參與的日志的計(jì)算量能夠達(dá)到 3.2 個(gè) pb。我們每天也能夠?qū)ν馓峁┏^一萬次的有效報(bào)警,這是一個(gè)非常健壯的平臺。所有的功能我們在公有云上完全向用戶開放,而且用戶也可以選擇將我們的平臺以私有化的方式部署在你本地的機(jī)房里面。
案例分享
最后還有一些時(shí)間我給大家分享一些案例。然后再來回答剛剛大家提到的一些問題。
七牛云
第一個(gè)案例就是七牛云,七牛云所有產(chǎn)品線產(chǎn)生的日志都會(huì)導(dǎo)入我們的日志分析平臺里面來,統(tǒng)一的匯聚、清洗、存儲(chǔ)、搜索等等,然后支撐我們內(nèi)部的不同部門去使用這些日志。比如說商業(yè)運(yùn)營部會(huì)去針對用戶日常的使用消費(fèi)行為,去做用戶的畫像;產(chǎn)品研發(fā)部用來排查線上錯(cuò)誤;技術(shù)支持部用來客服;質(zhì)量保障部用來做質(zhì)量分析與復(fù)盤;運(yùn)維部用來做運(yùn)維監(jiān)控告警與成本分析。
銀行
第二個(gè)是一個(gè)大型銀行,該銀行擁有多個(gè)大型數(shù)據(jù)中心,且每個(gè)數(shù)據(jù)中心既有物理機(jī)提供服務(wù),也有虛擬機(jī)提供服務(wù),他們碰到的痛點(diǎn)是針對物理機(jī)和虛擬機(jī)、不同的網(wǎng)絡(luò)設(shè)備、不同的操作系統(tǒng)及不斷增加的海量業(yè)務(wù)數(shù)據(jù),無法做到統(tǒng)一的收集、存儲(chǔ)與分析。 該銀行最后采用 Pandora 平臺,利用 logkit 統(tǒng)一收集各種設(shè)備的 metric,最后在平臺上做監(jiān)控告警;同時(shí)也采用 logkit 讓業(yè)務(wù)方來收集業(yè)務(wù)日志,供業(yè)務(wù)方相關(guān)人員對這些日志進(jìn)行檢索與分析,從而更快的定位問題,并且持續(xù)挖掘數(shù)據(jù)價(jià)值。
制造企業(yè)
第三個(gè)是華東的一個(gè)大型制造企業(yè),也是我們剛才提到的物聯(lián)網(wǎng)的一個(gè)場景代表。客戶會(huì)把很多生產(chǎn)線上部署的傳感器的數(shù)據(jù)導(dǎo)入 Pandora。客戶整個(gè)車間和廠房非常大,所有的傳感器每秒鐘能產(chǎn)生百萬級別的數(shù)據(jù)。這樣百萬級別的數(shù)據(jù)需要實(shí)時(shí)地傳送到我的平臺上面來,然后對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,在做實(shí)時(shí)監(jiān)控的同時(shí),也會(huì)生成一些多維度的報(bào)表,方便用戶對整個(gè)生產(chǎn)線的實(shí)時(shí)工作情況,包括生產(chǎn)線一段時(shí)間內(nèi)的整體表現(xiàn),進(jìn)行一個(gè)精確分析。
互聯(lián)網(wǎng)公司
第四個(gè)案例是一個(gè)大型互聯(lián)網(wǎng)公司,主要業(yè)務(wù)是對外提供視頻點(diǎn)播類的服務(wù)。他們購買了七牛云的 cdn 服務(wù),因此產(chǎn)生大量的 cdn 的日志,包括用戶來源于哪個(gè)地方,他訪問了哪些資源,他的整個(gè)訪問情況,和他平均打開視頻的時(shí)長等等。這樣的一些數(shù)據(jù)其實(shí)都在我們的 cdn 日志里面并且蘊(yùn)含了很大的價(jià)值。該用戶基于我們的 cdn 日志,再結(jié)合我們的日志分析平臺,能夠分析出非常多的應(yīng)用質(zhì)量以及運(yùn)營的指標(biāo),來對后續(xù)的業(yè)務(wù)進(jìn)行支撐和決策分析。
大家如果有興趣的話可以去我們的官方網(wǎng)站上面看我們的產(chǎn)品介紹。下方有兩個(gè)網(wǎng)站,一個(gè)是七牛云的官網(wǎng),上面可以去免費(fèi)申請注冊賬戶來試用我們的平臺。第二個(gè)是我們的文檔站,大家在里面可以看到所有產(chǎn)品的具體介紹,而且他們也會(huì)提供典型的產(chǎn)品的場景描述和分析,能夠幫助大家更好地去理解對我們平臺的使用。
·?免費(fèi)注冊: www.qiniu.com ·?快速了解: developer.qiniu.com/insight/

最后 one more thing,我們預(yù)計(jì)會(huì)在 9 月份推出這三個(gè)功能,第一個(gè)是多維分析,我們叫它 datacube。它能夠?qū)τ脩艉芏嗳粘5年P(guān)鍵運(yùn)營指標(biāo)做預(yù)計(jì)算,當(dāng)你去查詢一些你關(guān)心的關(guān)鍵指標(biāo)時(shí),能夠更快地去輸出相關(guān)的結(jié)果。第二個(gè)是針對日常的運(yùn)維監(jiān)控,全鏈路的監(jiān)控分析解決方案。第三個(gè)是我們針對具體故障做的一個(gè)根因分析。這個(gè)我們也會(huì)都在 9 月份推出來。請大家關(guān)注七牛云的官網(wǎng),我們一有相關(guān)的消息就會(huì)及時(shí)通知大家。
感謝大家來聆聽我的一個(gè)簡單的分享。
Q&A
Q 有私有化部署案例嗎? 答:私有化部署案例是有的,我們遇到的很多傳統(tǒng)行業(yè)的客戶都是采用私有化部署方式來使用 Pandora 平臺,包括我們一些銀行案例,也是私有化部署的。事實(shí)上從 Pandora 誕生的第一天起,私有部署場景就是我們最關(guān)注的點(diǎn)之一。
Q 對于容器模塊的負(fù)載,能夠定位到某一個(gè)具體的進(jìn)程嗎? 答:可以的,我們現(xiàn)在支持針對 k8s 的容器日志采集,可以針對容器模塊進(jìn)行負(fù)載監(jiān)控,能夠定位到具體的進(jìn)程。
Q 可以自定義日志分析規(guī)則嗎? 答:可以的,我們支持非常靈活的日志分析的規(guī)則,你可以采用劃詞的方式來做日志的解析,并且將解析結(jié)果保存為規(guī)則,后續(xù)可以方便的為日志配置這些規(guī)則。
Q 如果使用云空間,日志量又很大,如何解決流量問題? 答:一些用戶在使用日志分析平臺的時(shí)候,會(huì)遇到類似擔(dān)心,如果日常業(yè)務(wù)和日志管理分析服務(wù)不在一個(gè)云上,會(huì)不會(huì)產(chǎn)生很多中間的流量費(fèi)用。針對性這樣的情況我們有兩種解決方案: 一、七牛 Pandora 所有的日志采集傳輸都是有壓縮加密的,壓縮率在 10 倍以上,極大降低流量負(fù)擔(dān); 二、如果有空閑的計(jì)算資源,可以是本地虛擬機(jī)或者云主機(jī),我們也支持將日志分析服務(wù)以私有化部署的方式部署在本地或是第三方云平臺上,這樣在一個(gè)統(tǒng)一平臺里面,日志傳輸流量可以變成內(nèi)部流量,一般來說內(nèi)部流量的成本是很低的。
Q Pandora 和 ELK 有什么區(qū)別? 答:
-
我們?nèi)泄?#xff0c;開箱即用,按需付費(fèi),成本低
-
Pandora 的數(shù)據(jù)收集產(chǎn)品 logkit 無論是從體驗(yàn)還是性能看,都遠(yuǎn)好于 logstash/filebeat
-
我們支持靈活的企業(yè)級數(shù)據(jù)總線
-
我們在 「采集」的穩(wěn)定性及功能豐富性上的表現(xiàn)遠(yuǎn)好于 ES
-
在大規(guī)模數(shù)據(jù)量(十億條日志以上、TB 級別以上)的情況下系統(tǒng)穩(wěn)定性及性能的表現(xiàn)好于 ES
-
ES 不支持?jǐn)?shù)據(jù)脫敏
-
ES 不支持多租戶
-
ES 不支持用戶權(quán)限,安全審計(jì)等關(guān)鍵功能
-
ES 無內(nèi)置機(jī)器學(xué)習(xí)支持
-
ES 無各種豐富解決方案的支持
總結(jié)來說,用 ELK 的場景都可以使用 Pandora 來完成,Pandora 提供了優(yōu)秀的產(chǎn)品體驗(yàn)。 而從功能集的角度考慮,Pandora 是 ELK 的超集,如可以輕松完成流式計(jì)算與多維分析等場景。
牛人說
「牛人說」專欄致力于技術(shù)人思想的發(fā)現(xiàn),其中包括技術(shù)實(shí)踐、技術(shù)干貨、技術(shù)見解、成長心得,還有一切值得被發(fā)現(xiàn)的內(nèi)容。我們希望集合最優(yōu)秀的技術(shù)人,挖掘獨(dú)到、犀利、具有時(shí)代感的聲音。
總結(jié)
以上是生活随笔為你收集整理的(下)挖掘传统行业日志大数据的无限价值的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python下电影_Python3.6实
- 下一篇: 企业供应链管理架构图