东方明珠胡俊:「东方明珠数据中台」四年发展历史全解(内附彩蛋)
在以“矩·變”為主題的 2019 神策數據驅動大會現場,東方明珠新媒體資深研發總監胡俊發表了名為《東方明珠數據中臺》的主題演講。以下內容根據其現場演講整理所得,文末可免費下載完整版 PPT 及獲取三個精品彩蛋,彩蛋涵蓋東方明珠橫跨四年的數據中臺建設經驗和技術精華。
本文將為你重點介紹:
前奏:廣電大數據背景及數字化轉型解讀
演進:東方明珠數據中臺演進全解
總結:數據中臺建設七大成功經驗
一、前奏:廣電大數據背景及數字化轉型解讀
1.廣電大數據背景
東方明珠作為綜合文化傳媒集團,迎合新媒體轉型的浪潮,一直在積極構建自己的“文娛+”生態圈。其作為中國最大的多渠道視頻集成與分發平臺,旗下有百視通,且是 3 大電信運營商的業務支撐中心,整個業務體系遍及全國 28 個省市,擁有國內領先的多渠道視頻集成與分發平臺及豐富的文化娛樂消費資源,為用戶提供豐富多元、特色鮮明的視頻內容服務及一流的視頻購物、文旅消費、影視劇及游戲等文娛產品,是上海廣播電視臺、上海文化廣播影視集團有限公司(SMG)旗下統一的產業平臺和資本平臺。
2015 年,東方明珠新媒體股份有限公司成立,這是我國第一家產業鏈一體化布局的傳媒文化上市公司,集團分設四大事業群,包括媒體網絡事業群、影視互娛事業群、視頻購物事業群、文旅消費事業群。
基于廣泛的的產業和業務,東方明珠目前擁有上億的用戶規模,是數據生產規模極大與數據活躍程度極高的領域,具有典型的大數據應用潛質。但過去也一直存在“有信息,難驗證”、“有覆蓋,難掌握”、“有流量,難變現”等顯著問題。為配合公司頂層戰略,研究院在 2016 年建立數據項目組,并啟動數據中臺建設。
2.傳統分析之殤
在建設數據中臺的過程中,傳統數據分析存在的較多弊端逐漸顯現,主要可概括為如下 6 個:
數據孤島仍然林立即使在若干個數據倉庫項目實施后;
基于數據倉庫的數據分析請求很難被高效響應,比如,企業或業務方提出的需求,一般排期需等待 2-3 周;
高級的數據分析工具往往掌握在少數專業的人手中,比如基本上國有企業的業務人員不用數據分析工具,只用網頁報表查看數據;
數據口徑不一致,即企業的數據分布在各個系統,并未做好主數據與元數據的管理,如市場部門與銷售部門對銷售額的定義出現不一致;
主數據、元數據是永遠的痛,即企業數據質量不高,無法支撐精細化分析;
數據離智慧運營仍隔著千山萬水。
3.數字化轉型節奏
我認為,數字化轉型可粗略分為四個節奏:
信息化與互聯網化的基礎,即企業優先 IT 化;
數據資產平臺與數據倉庫的廣泛建立;
數據中臺的搭建,數據服務化;
數據支撐與數據創新體系。
以上也可以看作是傳統企業做數字化、大數據、數據中臺等的一些基礎節奏。
4.智慧廣電愿景
智慧廣電愿景主要分為兩部分:
第一步,公司亟需打造一個完整的大數據平臺,歸集核心業務的用戶信息和經營數據,深挖數據價值,提供豐富的數據資產與數據產品服務,實現用戶精細化經營;
第二步,基于廣電行業的共同目標——智慧廣電,我們計劃做智能化的內容制作、分發傳播、用戶服務、科技創新、生態建設、運行管理等具備廣電特色的創新。如下圖是東方明珠新媒體集團的業態分布,其中“用戶價值”“業務賦能”“會員體系”是舉措的關鍵所在。
5.數據中臺價值主張
我認為,數據中臺價值主張的兩個關鍵是:業務數據化+數據業務化。此外,大數據具有催生大創新的潛在能量亟待挖掘。
二、演進:東方明珠數據中臺演進全解
東方明珠數據中臺建設至今,走出了自主、創新、可控的建設之路。對大數據相關建設項目進行集中指揮、統籌調度、資源共享,分階段分批進行落地處理,每個階段融入一部分關鍵業務,產出階段性成果,再進行其他業務和平臺整合。大致經歷了如下三個階段:
1.初探期:數據中臺?1.0
(2016.9~2017.6)
(1)痛點階段
在初探期,我們梳理了存在的 3 個主要痛點:第一,沒有統一門戶;第二,無法準確掌握各業務用戶增長情況;第三,對用戶群體特征缺少了解。
(2)立意階段
明確痛點后,在初探期我們設定的主要目標是搭建“數據中臺雛形”,在這里強調一點,在初探期一定要進行數據中臺價值的快速驗證,否則效果將大幅下降,特別是在國有企業的公司立項、審批實施、結尾匯報等相關環節大概需要 6-9 個月的背景下,可用于實踐的時間非常有限。
(3)成果階段
該階段數據中臺雛形初現。平臺門戶上線,歸集了百視通 APP 和東方購物 APP 兩大核心業務移動客戶端的用戶基礎信息,并引入第三方用戶標簽數據,形成業務線客群畫像。
最終,我在總裁會上匯報初探期的成果時,獲得了在場的 12 位高層的認可,且效果超過他們的預期。值得一提的是在這個過程中,整個建設團隊是從我 1 個人開始到結束時的 4 個人,取得該成績已經很不錯,雖然采用的是引入第三方用戶標簽數據的方式,但這實現了數據中臺價值的快速驗證,為后期的推進與建設打下了堅實基礎。
(4)收益
如下圖,為初探期的產品技術架構:
可以看到,在初探期我們實現了數據中臺的雛形搭建,在這個過程中,我們取得了如下收益:
統一用戶數據門戶,幫助業務人員樹立數據門戶概念,為后期應用打下基礎;
跨業務域用戶發展指標看板
用戶通過手機號關聯打通、全域特征刻畫
總體上,在該階段我們建造了數據中臺 1.0,并實現了價值驗證的目標。
2.升華期:數據中臺 2.0
(2017.7~2018.6)
(1)痛點
在升華期,我們確立了兩大痛點:其一,數據覆蓋不夠深、不夠廣;其二,第三方用戶畫像不夠貼合自有業務運營需要。這里強調一點,企業必須整合自身的業務數據,建立專屬用戶畫像,只有當需要的數據自身業務無法獲取時,再考慮引入第三方數據。
(2)立意
該階段的重點目標是集中建設數據資產,實現“業務數據化”。
(3)成果
全面歸集百視通 IPTV/ OTT / APP、東方購物全終端平臺、游戲群、會員中心的全量用戶數據,搭建業務數據倉庫,提供豐富的 BI 業務運營分析報表,并基于自有業務一手數據生產更貼合業務運營需求的用戶畫像標簽,可通過短信營銷平臺等觸手進行個性化營銷投放。如下圖右邊相比初探期進行了美觀度和豐富度的雙升級。
以百視通視頻業務為例,數據中臺提供的報表有效支撐了業務智慧運營,除了基礎分析指標外,還根據行業發展趨勢深化了一些列主題式分析洞察。在內容為王的發展趨勢下,運營分析在內容收視分析基礎上引入版權信息,深入洞察 IP 整體市場收益,支撐業務版權分賬模式;補充外部數據源,如工信部提供的寬帶用戶數、IPTV/OTT 全體用戶數,結合百視通自有業務的活躍用戶數,分析市場占有率與用戶滲透率;模擬整個內容生命周期或用戶生命周期的管理流程,將數據指標從頁面訪問、節目收視、按鈕點擊延展到增值訂購與復購,形成多級轉化漏斗及訂購歸因分析,指導產品與內容運營的不斷優化迭代。另外還為 BAPP 移動客戶端提供 APP 埋點分析服務。
針對東方購物業務,除了基礎的用戶、商品、定購分析外,還補充了 IPTV 電視購物直播頻道的收視數據以及 24 小時分片流量,將用戶分析的起點從電話呼入定購環節提前至節目播出觀看環節,為流量轉化漏斗提供更豐富的信息與洞察。
此外,在升華期進行了產品技術架構的二次升級,如下圖
將數據產品端的固定報表升級為 FR,實現基于報表的定制開發,并建立了精準短信營銷系統;在數據資產層,新增用戶發展模型、內容收視模型等,并進行了百視通、東購等全平臺數據的整合,且用戶畫像標簽也真正基于業務自有數據生產,并無縫服務于各業務線;在基礎平臺層,新增 Spark、Storm 等,且與神策數據建立了正式合作,步入真正做大數據產品的軌道。
這里強調一點,企業在選型 SaaS 服務時需非常謹慎,使用某些 SaaS 服務確實有數據泄露的風險,當時我們除神策埋點外,還在使用其他埋點工具,今年我們計劃以后撤掉其他埋點,只用神策數據的埋點,我知道神策不是賣數據的公司。
(4)收益
在升華期,我們取得了如下收益:
基于統一的數據倉庫,支撐集團業務數據的“管”與“建”,固定報表系統提供各類分析主題的報表塊合計超 500 個,同時支持大屏和移動端以適應各類使用場景。在線服務用戶數逾 500 人,為公司各項運營分析與業務結算等活動提供有效數據支撐。
數據中臺建成用戶畫像系統,聚合交易+交互+外部三重數據,自建用戶畫像分析平臺,已加工用戶收視類標簽 195 個、購物類標簽 66 個,并封裝接口服務給到業務線靈活調用,支持產品內容受眾分析、廣告精準營銷、個性化推薦、營銷短信定向推送等多種應用場景,實現用戶精細化運營,并通過投放反饋效果跟蹤,形成閉環的畫像迭代與運營使用。
3、質變期:數據中臺 3.0
(2018.7~2019.8)
(1)痛點
在質變期的核心痛點,如下:
其一,我們發現過去的數據多用于離線分析,這將涉及成本、人力問題,同時也并未直接在線服務于智慧運營,應用場景局限,數據的再生產力無法充分體現;
其二,針對內容分析、用戶畫像、智能推薦等數據應用場景,精準的內容標簽至關重要,但是 CMS 內容元數據的質量不夠理想。
(2)立意
基于以上痛點,在質變期,我們將重點放在全面提升數據面向業務的服務能力,進一步實現“數據業務化”。
(3)??成果
該階段的成果主要為搭建融合標簽庫服務、智能推薦等服務,并有機整合數據中臺的各個產品模塊,譬如將用戶行為、視頻標簽、用戶畫像等數據深度應用于推薦服務,直接服務于面向終端用戶的業務場景,形成數據收集、加工、應用、反饋的全閉環。
下面具體展開介紹,融合標簽庫服務系統和智能推薦服務系統。
其一,融合標簽庫服務系統,在數據中臺建設的逐步深入中,我們發現目前的內容標簽相對較匱乏,并未與互聯網接軌,事實上,在視頻制作和播出的領域中,標注數據也稱為媒資元數據或媒資標簽,即對節目、藝人、制作公司等加以描述的信息進行數字化和結構化存儲、關聯和展示。這些信息散落在網絡上、企業業務平臺上、編輯們的電腦里,并且隨著行業的發展變化快速地更新、演化著。網絡上比較著名的娛樂行業數據庫有豆瓣、時光網、貓眼等。但從標簽使用者角度來看,每個數據來源都有些片面,視頻運營企業根據自己的需要其實都在建立自己的標簽庫,作為視頻基礎服務與更多 AI 智能服務提供基礎數據支撐。
因此,我們在行業詞庫、多源采集、應用場景、技術架構、服務輸出、租戶機等方面做了全方位建設升級,如下圖:
數據中臺建成融合標簽庫服務,作為國內廣電企業第一家大規模和標準化的視頻內容標注系統和標準,通過網絡爬蟲、數據交換、人工錄入等多種方式,采集并整合了歡網、豆瓣、貓眼、藝恩等多源數據,并通過知識圖譜、自然語義分析等技術,對采集的信息進行結構化存儲,建立娛樂行業的行業詞庫及語義關系。內容覆蓋點播節目 50 萬條、藝人 40 萬條、直播頻道 100 余個、直播節目(與點播節目關聯)、輿情數據等,標簽類型超過 100 余種。管理后臺可通過標簽樹等靈活管理手段,實現視頻節目、藝人、制作商、發行商、電視直播節目單、行業獎項等多種實體標簽信息的匯聚、關聯、整合、審核、統一標準與快速更新。
融合標簽庫數據可直接服務于東方明珠版權采購、媒資生產、內容編輯、前端展示、AI 智能應用如智能推薦等業務板塊,并可通過受控的開放接口和 WEB 頁面向公司以外的企業提供數據服務,為視頻運營企業尤其是廣電行業內的播出渠道聚焦數據、降低數據搜索成本。
其二,數據中臺建成智能推薦系統,作為一套完善的平臺架構,采用業內最前沿的人工智能 AI 推薦算法和技術架構,擁有數據采集、數據傳輸、數據預處理、數據建模、推薦引擎、實驗分流、推薦模型訓練與效果評估,并持續迭代優化的能力。該系統的建立非常感謝神策數據團隊的助力,如下圖是神策數據智能推薦系統模型大體框架,其支持基于用戶行為數據、內容畫像、用戶畫像的多樣化個性化推薦方式,以及多種先進的算法、多源數據應用、人工干預等。
2018 年下半年至今,智能推薦系統已先后在上海電信、上海移動、福建電信、江西電信和新疆電信等駐地上線,支持 EPG7.0 等多個版本,每日處理億級數據,服務百萬級用戶,每日提供千萬次請求,智能推薦內容的點擊率為人工編排的 3~6 倍、對推薦內容的人均瀏覽次數提升了 1.9 倍。智能推薦系統在激活長尾內容收視的同時,極大提升了用戶黏性,促進增值產品訂購轉化,并可直接替代或者輔助人工編排決策,實現運營降本增效。
質變期的產品技術架構同步進行了再次升級:
相比升華期,在數據產品端新增 Tableau;在數據服務層,新增智能推薦服務;在數據資產層,新增內容標簽、輿情熱點等功能。在這個過程中,與神策數據在神策分析的基礎上,新增神策智能推薦合作,實現了雙贏。(詳情可看:一文解讀神策智能推薦)
(4)收益
在質變期,我們取得了如下收益:
智能推薦系統已先后在全國多個駐地運營商上線,每日處理億級數據、服務百萬級用戶,CTR 點擊率為人工編排的 3~6 倍、對推薦內容的人均瀏覽次數提升了 1.9 倍。在降低人工編排成本的同時,極大提升了用戶黏性,促進增值產品訂購轉化,實現運營降本增效。
內容標簽庫已向內容中臺提供服務,并通過租戶系統向電信運營商輸出。標簽數據綜合應用于版權采購、媒資編目、內容精細化分析、智能推薦等應用場景。
以上分享的東方明珠數據中臺演變的三個階段,可概括為如下進化軸:
在這個過程中,數據中臺功能模塊的新增與升級也是東方明珠數據中臺建造歷程圖譜,如下圖,灰色模塊代表我們未來的發力點。
在建造過程中核心技術的選擇起著關鍵作用,我認為企業可以嘗試一定的托管服務方式,以提高開發效率。
此外,數據中臺的建設,依托于自建 DevOps 研發一體化平臺。通過對東方明珠新媒體研發團隊多年來的研發工作流和經驗總結和抽象,DevOps 平臺通過搭建項目管理、知識管理、代碼托管、流水線管理、持續構建、制品管理、自動化測試、自動化部署、日志收集、監控報警這 10 個系統,形成了從軟件設計、到編碼開發、到測試上線、到監控運維的完整生命周期管理平臺,有效支撐智慧廣電背景下的軟件研發項目既“穩”又“敏”的“雙態”要求。
另外,強調一點作為甲方一定要選所需比選全重要,有時候購買一套完整的解決方案可能 80% 的功能并未起作用,且很難更換,因此在建數據中臺 DevOps 平臺時,所有模塊均由我自己挑選并自由組合建成。
三、思考:數據中臺建設七大成功經驗
總體上,東方明珠數據中臺建設已取得一定程度的成功,目前已真正做到賦能業務,并贏得了業務方和管理層的雙重肯定,我總結了建設過程中的 7 個成功經驗,供大家參考:
1.成立戰略專項小組
東方明珠是黨委書記和總裁親自上陣,分別任組長和副組長,且各業務部門牽頭的都是集團副總,從上而下貫徹踐行大數據戰略。這與神策 2018 數據驅動大會上神策數據創始人&桑文鋒分享的一個觀點吻合,數據項目成功有三個關鍵要素:第一,一把手必須支持你;第二,業務要做相應的數據主架構調整,比如分配專門的數據專員配合IT區域做數據項目;第三,IT 能力建設,這三個缺一不可,數據項目一定是和業務緊密耦合的項目。
2.數據需求匯總管理
大數據相關需求,全部匯總到總部數據研發小組,不再進行獨立小數倉和報表系統的研發;規范和嚴格元數據管理、數據質量管理,實現統一管理、統一發布、統一運營。
3.分步走、階段性項目推進機制
做數據項目需要一步一步讓業務和管理層深入進來,坐上一艘船,我在初探期做的數據中臺價值快速驗證便是為此打基礎。將大數據相關建設項目,實現集中指揮、統籌調度、資源共享,分階段分批落地、每個階段融入一部分關鍵業務,產出階段性成果,再進行其他業務和平臺整合。
4.充分擁抱開源系統
在選型時,企業需整體考量業務規模有多大,具體需求如何,以此匹配真正適合自身的開源系統體系。目前傳統商業軟件無法滿足東方明珠這個體量和業務復雜度的大數據需求,并且廣電行業對自主可控、數據保護、安全隱私要求較高。數據平臺基于 hadoop 的開源大數據生態,在核心技術方面堅持以自主研發為主。
5. 沙堆模型落地 DevOps
關于 DevOps,需考慮分布式驗證 DevOps 體系,采用“沙堆模型”在多個業務線開展 DevOps 的工具鏈落地,加速研發流程,逐步遷移、持續部署、持續集成,這對企業未來整個數據平臺體系建設起到極大的作用。
6.構建大數據生態合作體系
企業要和供應商實現共贏,篩選適合東方明珠大數據發展體系的生態合作伙伴,如公有云服務商、用戶行為分析和智能應用解決方案服務商等,這些服務商在整個中國的大數據生態圈里,都扮演著舉足輕重的角色。
7.打造開放平臺、支持對外能力輸出
經過支持自有業務發展的實戰歷練,持續沉淀技術,建立標準,打造標準化產品服務的開放能力,未來可以同業提供技術服務輸出,探索更多的數據業務合作模式,讓知識成果可以服務于整個行業與社會。
伴隨著數據中臺建設的成功,我們也獲得了一些殊榮的肯定,下圖是我們近期獲得的部分榮譽:
另外分享下管理團隊的心得,我有一個原則——團隊需要不斷的成長,而且團隊內部要不斷地分享、交流、學習,比如我的團隊每兩周會組織個人向整個團隊介紹技術體系的分享會,下圖為我們團隊的榮譽證書:
未來四年,我們將聚焦開放平臺、數據智能、雙云支持三個關鍵方向,迎接已經到來的數據中臺 4.0。
以上是我今天的全部分享,另外我準備的三個彩蛋,包含東方明珠整個技術架構體系建設的詳細介紹,可在神策數據公眾號回復“彩蛋”獲取,“PPT”可點擊閱讀原文下載。
『不容錯過的精彩內容』
▼▼▼
獨家 | 神策 2019 數據驅動大會現場「視頻+PPT」合集
PPT 下載 | 每日一淘的高速增長與復購是怎樣煉成的?
PPT 下載 | 神策數據桑文鋒:「矩·變」加速中國數據化建設
PPT 下載 | 神策數據徐美玲:如何挖好數據這座礦?
PPT 下載 | 數據治理中的一些挑戰與應用
戳此,免費下載 PPT
總結
以上是生活随笔為你收集整理的东方明珠胡俊:「东方明珠数据中台」四年发展历史全解(内附彩蛋)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 独家 | 神策 2019 数据驱动大会现
- 下一篇: 杭州成都场「PPT 下载」新鲜出炉 |