Growth Hacking背后,数据分析平台的架构调整
發表于2015-11-03 11:05| 1547次閱讀| 來源CSDN| 6 條評論| 作者蒲婧
CTO俱樂部CTOCTO講堂Growth Hacking數據分析 width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-11-03%2F2826110-CTO&type=3&count=&appkey=&title=Growth%20Hacking%E6%A6%82%E5%BF%B5%E8%B6%8A%E6%9D%A5%E8%B6%8A%E7%81%AB%EF%BC%8C%E5%BE%88%E5%A4%9A%E5%88%9B%E4%B8%9A%E5%9B%A2%E9%98%9F%E6%8A%8A%E8%BF%99%E4%B8%AA%E4%B8%BAFacebook%E3%80%81Airbnb%E7%AD%89%E5%85%AC%E5%8F%B8%E5%B8%A6%E6%9D%A5%E5%B7%A8%E5%A4%A7%E7%94%A8%E6%88%B7%E5%A2%9E%E9%87%8F%E7%9A%84%E6%A6%82%E5%BF%B5%E5%A5%89%E4%B8%BA%E5%9C%A3%E7%BB%8F%E3%80%82%E4%B8%8E%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%9A%84%E5%85%B3%E7%B3%BB%E6%98%AF%E6%80%8E%E6%A0%B7%E7%9A%84%EF%BC%9F%E7%8E%B0%E6%9C%89%E7%9A%84%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%9E%B6%E6%9E%84%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%8D%E8%83%BD%E6%94%AF%E6%8C%81%E9%9C%80%E6%B1%82%EF%BC%9F%E6%9C%AC%E6%96%87%E4%B8%BA%E8%AF%B8%E8%91%9Bio%E5%88%9B%E5%A7%8B%E4%BA%BA%26CEO%E5%AD%94%E6%B7%BC%E7%9A%84%E5%88%86%E4%BA%AB%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1449995251852" frameborder="0" scrolling="no" allowtransparency="true">摘要:Growth Hacking概念越來越火,很多創業團隊把這個為Facebook、Airbnb等公司帶來巨大用戶增量的概念奉為圣經。與數據分析的關系是怎樣的?現有的數據分析架構為什么不能支持需求?本文為諸葛io創始人&CEO孔淼的分享。為了幫助IT從業者職業之路擁有更多收獲,在諸多C粉的殷切期待下,由 CTO俱樂部打造的CTO線上講堂自登場以來獲得大家好評。本期邀請諸葛io創始人&CEO孔淼帶來“Growth Hacking背后,數據分析平臺的架構調整?”的主題分享。
歡迎加入CTO講堂微信群與業界大咖零距離溝通,11月6日本期講堂報名方式拖至文末查看。
分享嘉賓:諸葛io 創始人&CEO 孔淼
嘉賓簡介:孔淼,90后,諸葛io 創始人/CEO,畢業于華中科技大學軟件工程專業。大學期間獲得全球最大學生技術創新比賽微軟創新杯兩項一等獎,騰訊校園之星大賽全國第二,全國大學生計算機設計大賽一等獎,HTML5 code jam武漢冠軍。曾受邀實習于創新工場,擔任李開復博士的技術主力,負責處理工場各部門以及李開復的技術需求。畢業后放棄保研以及各大公司offer,加入37degree團隊開始創業。在37degree期間,曾帶領團隊服務過CCTV、海爾、寶馬等知名企業。過去4年間,孔淼專注于對數據分析、數據挖掘領域的探究,并于去年起打造了新一代的數據服務平臺——諸葛io。
公司簡介:諸葛io (zhugeio.com) ,作為國內首屈一指的精細化運營分析工具,一直強調數據分析的應用與價值。自2015年3月上線,已擁有圍繞產品業務邏輯展開的一系列功能,如:自定義事件、自定義留存、漏斗轉化、群組細分、用戶畫像等。諸葛io旨在以先進的用戶跟蹤技術和簡單易用的集成開發方法,幫助產品與運營者挖掘用戶的真實行為特征。產品上線運營半年,已擁有暴走漫畫、墨跡天氣、小影、尋醫問藥網的諸多樣板客戶,總覆蓋設備數超過一億。目前,諸葛io支持Android、iOS和HTML(JS)三個平臺。?
以下是10月29日CTO講堂現場完整速記:
主持人:講堂開始啦~今天嘉賓是諸葛io 創始人兼CEO孔淼,請您做個自我介紹吧。
孔淼:大家好,我叫孔淼,諸葛io的創始人,現在也是CEO,之前是創新工場也是微軟創投加速器項目37degree的CTO,所以也應該算第二次創業了,過去幾年一直是專注于分布式技術和數據挖掘領域。在過去的幾年積累的經驗,也意識到了數據分析的困難,所以這次打造諸葛io也是為了幫助更多的企業更高效快捷的開始利用數據驅動決策。
主持人:什么情況下開始的諸葛io的創業呢,最初的創業方向是怎么確定的?
孔淼:最初創業方向應該是我還在37degree的時候,大概是13年底,就和合伙人討論了當時如何將數據分析標準化服務更多的企業,討論了當時非常常用的百度統計,友盟,talkingdata,Google Analytics等統計類工具,后來總結他們的弊端有兩點:
一是幾乎是外部環境和通用的維度數據(DAU, PV, 設備,運營商等等),很難反映業務的情況,并且稍微和業務相關的類似頁面訪問這些數據粒度也太粗了;二是這些數據大多都是忽略人的行為路徑,純從行為發生進行統計,高度匯總的統計平臺。沒有基于用戶進行分析。
后來也討論了Splunk這種日志處理分析工具,但是這種工具場景離業務太遠了,也會限定用戶群是能夠收集日志,有一些分析能力的團隊。但是沒有想到合適的方法,直到14年初一個和手機廠商合作的SDK項目讓我們有些開竅了,找到解決問題的方式和辦法了,然后連續半個月,我和合伙人每天晚上聊到11點多,到14年10月就開始DEMO,12月就開始現有版本的開發了。
主持人:請介紹一下目前諸葛io的情況以及技術團隊構成。
孔淼:目前諸葛io有二十多人,現有的標準化產品是zhugeio.com,暴走漫畫,小影,尋醫問藥,墨跡天氣,365日歷等知名應用和服務都已經是我們的用戶了。現在注冊的開發者超過1000,創建的應用也逼近500個了,我們提供javascript,Android,iOS等三個平臺的數據分析服務,已經覆蓋超過2億的設備。
同上面講的差異,諸葛io目前提供的主要是基于用戶行為進行實時多維度的交叉分析,幫助更多企業將產品黑盒子打開,幫助他們提高客戶留存和客戶忠誠度,也能看到更多自己的業務相關指標變化以及背后的人群,目前提供無碼布點(無需更新應用實時可視化埋點跟蹤),自定義事件、自定義留存、漏斗轉化、群組細分、用戶畫像,通知推送等服務。并且我們在持續迭代,旨在打磨更好,更易驅動決策的產品。
技術團隊的構成目前是十多人,包括了前端工程師,web開發工程師,服務端工程師,大數據工程師,數據倉庫工程師,運維,DevOps,后臺開發工程師,SDK開發工程師, 數據分析師。
主持人:近期“Growth Hacking(增長黑客)”的概念越來越火,很多創業團隊都把這個為Facebook、Dropbox、Airbnb等公司帶來巨大用戶增量的概念奉為圣經。然而,究竟什么是Growth Hacking?該如何理解呢?
孔淼:Growth Hacking我在之前分享過一篇 文章
也在創新工場講過 一次課
大家可以看看,Growth Hacking更多的是基于一些產品現狀的數據分析,通過一些策略獲取快速的增長,Growth Hacking不同與市場或者BD,后者更多是面上的覆蓋,用通用的方法帶來流量或者以資源互換帶來增長,它更多的是圍繞AARRR的用戶生命周期,也就是Acquisition(用戶獲取),Activation(用戶活躍/激活),Retention(留存), Referral(傳播),Revenue(收入),這樣一個用戶從獲取到產生價值轉換的過程,其實也是一個漏斗轉化,針對某個轉化比較糟糕的階段進行分析,提出策略,然后針對性改善,獲取爆發增長。所以是基于數據,更有針對性,也更Hacker一些。
主持人:那么Growth Hacking與數據分析的關系是怎樣的?
孔淼:Growth Hacking不是完全拍腦門,我們可能會經常腦洞打開提出很多策略,但是數據分析的支撐越少,語境就越大,就越靠直覺和猜測了,而Growth Hacking大多是基于數據分析,例如剛剛講到的2A3R(AARRR)的用戶轉化情況,所以就把策略和決策能夠focus在更準確的地方,通常就是我們所說的OMTM( One Metric That Matters)最有影響的指標或因素。
主持人:研發團隊在其中扮演著怎樣的角色?都面臨哪些挑戰?
孔淼:我們提供的數據分析,是從采集到交互式分析,所以剛剛講到的這些職位自然就有相應的對應。SDK工程師(數據采集),服務端工程師(數據收集),大數據工程師(數據處理清洗),數據倉庫工程師(建模分析),web開發工程師(網站應用),前端工程師(交互效果),然后運維和DevOps會支撐內部的一些服務和數據分析,數據分析師也會基于數據幫助企業探索一些價值產出。
面臨的挑戰也挺多的,如何處理更加實時,以及更加大量級的(微信,今日頭條等)分析,SLA等等。
主持人:談到今天分享的主題,為什么說現有的數據分析架構不能支持Growth Hacking需求?
孔淼:其實剛剛對Growth Hacking已經解釋了,更多的是圍繞用戶分析而來,而開始也提到了現有的數據分析系統解決方案大多數是基于Hadoop的統計分析平臺,開始會抽出一些待交叉分析的維度,然后針對維度進行計數,所以丟掉了人的行為路徑。
主持人:目前諸葛io是如何在架構上解決傳統分析平臺的不足?可否展開詳細談談。
孔淼:我們的架構還是現有數據分析常見的lambda架構,我們的數據處理過程分層比較平行,并且基本上都是分布式技術,沒有單一的使用一種數據庫,例如用到了mysql,infobright, Elasticsearch,? Hadoop分別存儲和處理不同類型的業務。也把一些高復雜度的分析進行拆解,不太好用單一技術解決的問題,會從業務拆解。
可以分享一個我們的架構圖:
我們的消息隊列用的是Kafka,這種就把子業務系統的處理變成了多層消費者,支撐不同業務條件下的分析。
我們的架構做過一次變遷,最開始的時候,中間的業務數據清洗,寫的是java進程消費Kafka進行處理,后來改成了Samza,也是為了擴展性。
主持人:請介紹一下諸葛io目前的產品及服務? 諸葛io提供哪些工具來協助提升技術團隊的效率?
孔淼:諸葛io的產品和服務剛剛已經介紹過了,我們內部用Gitlab進行代碼管理,用JIRA跟蹤bug,用Teambition進行項目管理,內部堅決不造輪子,也會用ELK這種跟蹤內部的日志。
主持人:相比同類型產品,主要優勢有哪些?
孔淼:我們是國內最早基于用戶和業務數據的實時多維交叉分析工具,相對于傳統的分析工具,主要差異如下:
主持人:請談談你們是從哪些方面來做好安全保障和提升服務質量的?
孔淼:我們目前的是基于標準服務器和數據庫的端口權限管理保證基礎的安全,并且諸葛現有的數據上傳和數據查看也逐步全面切換HTTPS服務,我們同是在數據上傳和處理也做了多級備份的策略,上周末我們的服務器硬盤突然異常損壞,但是整個過程基本上沒有用戶的數據丟失,這是對內的,對外我們也在評估一些安全廠商,希望通過外部的力量幫助我們提早發現漏洞和保障安全。
主持人:看到您簡歷,屬于年輕的一代的創業者,請結合您的切身體會談談您眼中年輕一代人身上的特點,以及對即將走上創業之路的年輕人有什么建議?
孔淼:我是連續創業,第一次是深度參與創業,所以也很感謝我第一次創業的老板也是我現在的合伙人,讓我了解到了創業中得很多問題,而這一次以CEO身份創業也從更多方面上感受到了挑戰和壓力,但非常值得!
對于年輕一代人,我其實還是不太理解的哈哈,所以大家看我都以為我是85年,其實我是91年出生的,我女朋友比我小一歲,也叫我叔叔,包括身邊的朋友大多也是70后和80后一些創業經歷豐富的朋友,也一直是我學習的目標。總的來說,我還沒有創業成功,也沒有太多資格去給別人建議,但我的體會是有價值和值得的。
主持人:那么平時諸葛io的技術團隊都通過什么渠道來提升團隊?技術團隊氛圍是怎樣的?公司招人過程中,您比較看重新人的哪些特質?不大接受哪一類型的人?
孔淼:我一直堅持的是讓大家要發現自己所做事情的價值,也努力讓大家認同公司產品的價值,并且幫助每個人找到自己合適職位和工作內容,比如我們的大數據工程師就是從web開發轉過來的,興趣和passion是最好的提升方法。
技術的氛圍是鼓勵大家學習,挑戰和反思。根據職位不同,看重的不一樣,但最重要的還是學習能力。不大接受的是自然也就是抵觸學習的人。
主持人:推薦一些您覺得非常不錯的書籍或者學習資源吧。
孔淼:《精益數據分析》(《Lean Analytics》)相信對很多公司的數據分析部分有幫助,然后架構方面,就是多看類似InfoQ上一些公司分享的slides,國外的就是slideshare、 highscalability?可以找到很多資源,不過還是提醒下大公司的架構不見得借鑒性那么強,核心還是弄清自己業務,以及相關技術棧的特點。
我推薦技術人員不要過多只限于技術,更多也要多了解業務,有的放矢。
互動環節:請問的系統會爬取公網的網頁消息用作數據分析么?孔淼:不會,我們做第一方數據分析,只分析您自己的數據 互動環節:您現在的業務收集數據和數據報告延時多少?主要是哪個環節延遲最大,是什么原因呢?
孔淼:數據收集是實時,這個實時是不考慮終端數據上傳策略,數據報告是on demand的。實時的數據報告不包含今日的數據。
問:個人拙見 這是得客戶自己不斷的改進才能拿到最多給自己的組合。 當然可以反饋給孔老師:)
孔淼:嗯,分析也是迭代的,過往錯誤的觀念是把所有數據都收集起來,結果也都不會分析的,本身版本迭代過程,你也不會一個月解決所有的問題。 互動環節:您能舉一個 真是的google analytics 干不了的 你的可以干的了的案例嗎?
孔淼:自定義留存,比如滴滴用諸葛io可以看到搶了紅包持續打車或者沒有打車的的留存率怎樣。并且這些數字都能看到背后每個人最近的使用情況。
問:同意。 youtube 只關注 watch time, what's app 就關注 messages per day, fb 關注 dau。
孔淼:是的,過去大家用百度統計,友盟看到的都是一樣的留存,DAU,但是其實更加關注的應該是自己的業務情況,比如滴滴打車留存,知乎日報是閱讀的留存。 互動環節:不需要hdfs分布式文件系統存儲,直接流式處理數據放入數據庫中,是這樣嗎?
孔淼:流失處理數據是過程,HDFS分布式存儲是其中一種消費應用,也有入到Redis做技術統計,也有入到Elasticsearch做索引的,還有其他的。所以不是唯一只存在一個地方,每一種數據庫有各自的應用場景,并列的消費者。 互動環節:您講的觀點非常贊同。有這么一個問題請教一下:app行為日志和業務相結合,但可能存在你們對于公司的業務不夠熟悉,這種情況下如何達到預期效果?
孔淼:我們的SDK接口抽象了,業務抽象成了事件名稱和屬性的組合。我們捕獲數據后,就會自動成為我們的篩選條件。所以每一家應用使用諸葛io篩選條件都不一樣。 互動環節:實時的多維分析主要是基于那種存儲呢? 是mysql么?還是mongoDB呢?
孔淼:還是關系型數據庫,但是每天凌晨結合業務生成了一些中間表,降低復雜度。 互動環節:大數據分析固然重要, 你們如何對待你們收集的數據里包含的個人隱私?還是還是目前不管這一塊?
孔淼:我們做第一方數據分析,不會自己基于數據賣錢,本身就是收費服務,這是我們商業模式。關于安全性,剛剛也講了我們的措施。 互動環節:使用開源軟件過程中有沒有遇到一些不好解決的難題?
孔淼:有,有一些限制,但是我們目前遇到的問題不大,往后肯定會有更多問題,下個階段可能就需要基于源碼做深度的修改開發了。
總結
以上是生活随笔為你收集整理的Growth Hacking背后,数据分析平台的架构调整的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何构建高可用和可伸缩的架构?
- 下一篇: 独家直播双十一全网动态?前黑客“劳改”带