日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

优酷背后的大数据秘密

發布時間:2024/8/23 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 优酷背后的大数据秘密 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在本文中優酷數據中臺的數據技術專家門德亮分享了優酷從Hadoop遷移到阿里云MaxCompute后對業務及平臺的價值。

本文內容根據演講視頻以及PPT整理而成。

大家好,我是門德亮,現在在優酷數據中臺做數據相關的事情。很榮幸,我正好見證了優酷從沒有MaxCompute到有的這樣一個歷程,因為剛剛好我就是入職優酷差不多5年的時間,我們正好是在快到5年的時候,去做了從Hadoop到MaxCompute的這樣一個升級。這個是2016年5月到2019年現在的5月優酷的發展歷程,上面是計算資源,下面是儲存資源。大家可以看到整個用戶數,還有表的數據,實際上是在呈一個指數式增長的。但是在2017年5月,當優酷完成了整個Hadoop遷移MaxCompute后,優酷的計算消耗,還有儲存的消耗實際上是呈下降趨勢的,整個遷移得到了一個非常大的收益。

下面說一下優酷的業務特點。

第一個特點從大數據平臺整個的用戶復雜度上面,不止是數據的同學和技術的同學在使用,還會包括一些BI同學,測試同學,甚至產品運營都可能去使用這個大數據的平臺。

第二個特點就是業務復雜,優酷是一個視頻網站,它有非常復雜的業務場景,從日志分類上,除了像頁面瀏覽,還會有一些播放相關的數據、性能相關的數據。從整個的業務模式上,有直播、有會員、有廣告、有大屏等這樣一些非常不一樣的場景。

第三個特點,就是數據量是非常巨大的,一天的日志量會達到千億級別,這是一個非常旁大的數據量,而且會做非常復雜的計算。

第四個是比較有意思的,不管是小公司、大公司,對成本的意識是非常高的。優酷也是有非常嚴格的預算,包括在阿里集團內是有非常嚴格的預算系統的,但是我們也經常會去做一些重要的戰役,像雙十一戰役,像我們暑期的世界杯戰役,還有春節也會搞各種戰役。這樣的話,其實對計算資源的彈性要求是非常高的。

基于上面的優酷的業務特點,我整理了MaxCompute可以完美的支持我們業務的幾個特點。

第一個,簡單易用。
第二個,完善的生態。
第三個,性能非常強悍。
第四個,資源使用非常彈性。

第一個特點,簡單易用。MaxCompute有一個非常完整的鏈路,不管是從數據開發,還是數據運維,包括數據集成,數據質量的管控,還有整個數據地圖,數據安全。當年優酷從Hadoop遷到MaxCompute之后,我們最大的體會是自己不用半夜經常起來去維護集群了,不用去跑任務了,寫一個任務,別人之前提一個需求過來,我可能要給他排幾周,而現在我可以告訴他,我給你馬上跑一下,就可以出來了。包括之前像分析師BI還要登錄客戶端,寫腳本,自己寫調度,經常會說我的數今天為什么沒出來?包括高層看的數,可能要到12點鐘才能出來。而現在基本上所有重要的數據都會在7點鐘產出,包括一些基本的業務需求,其實分析師或者產品,他們自己都可以實現了,不需要所有需求都提到數據這邊。

第二個特點,完整的生態。優酷在2017年之前是完全基于Hadoop的生態,遷到MaxCompute之后,是基于阿里云提供的Serverless大數據服務的生態。大家可以在開源上看到的組件,在整個的MaxCompute上都是有的,而且比開源的要更好用、更簡單。從架構圖上可以看到,我們中間是MaxCompute,左側依賴的Mysql、Hbase、ES、Redis這些都是由同步中心去做一個雙向的同步。右側會有資源管理、資源監控、數據監控,包括數據資產,還有一些數據規范。我們下層的數據輸入,包括一些集團的采集工具,再往上邊,有提供給開發人員用的DataWorks,包括一些命令行的工具;有提供給BI人員用的QuickBI及數據服務。

第三個特點,強悍的性能,MaxCompute支撐了優酷EB級的數據存儲,千億級的數據樣本分析,包括千億級的數據報表,10W級實例的并發、任務。這些在之前維護Hadoop的時候,是想都不敢想的。

第四個特點,資源使用的彈性。我們在2016年遷移之前,其實優酷的Hadoop集群規模已經達到了一千多臺,這個當時還是一個比較大的規模。當時我們遇到了很多問題,包括像NameNode 這種內存的問題,機房沒有辦法再擴容的問題,當時是非常痛苦的,包括一些運維管理上面的問題。我們不斷的去問運維要資源,運維告訴說,說你們已經花了多少多少資源,花了多少多少錢。我們面臨的問題是計算資源如何按需使用,夜里的時候作業很多,到了下午之后,我的整個集群都空下來了,沒有人用,造成了浪費。其實MaxCompute完美的解決了這個問題。

第一個,它是按用量計費的,不是說給你多少臺機器,然后就收你多少錢的,真的是你用了多少資源收多少錢的,這個在成本上來說,比自己去維護集群,可能是一個砍半(降50%)這樣的收益。

第二個,實際上MaxCompue計算資源是可以分時的,比如說生產隊列,凌晨的時候會調高一些,保證報表能夠盡快出來。到白天時候,讓開發的計算資源高一些,可以讓分析師、開發去臨時跑一些數據,會更順暢一些。

第三個,MaxCompute快速的擴容能力,比如說突然有一個比較強的業務需求,發現數據跑不動了,計算資源不夠,所有的隊列都堵死了,這個時候其實可以直接跟運維說一聲,幫忙一鍵擴容,他兩秒鐘敲一個命令就搞定了。這樣的話,所有的資源可以迅速的消化下去。

上面是優酷為什么采用MaxCompute,下面是在優酷的業務場景下,我們一些典型的方案、應用。這張圖實際上是優酷,包括可能現在阿里集團內部一些非常典型的技術架構圖。中間可以看到,MaxCompute在中間核心的位置,左側主要是一個輸入,右側是一個輸出的趨向,綠色的線是一個實時的鏈路,包括現在我們從整個的數據源上,比如DB也好或者服務器的本地日志Log也好,我們通過TT&Datahub存儲到MaxCompute上面做分析。當然現在非常火的Flink實時計算,其實是作為一個實時處理的鏈路。

包括DB的同步,除了實時的鏈路,DB也會去通過按天/按小時,把數據同步到MaxCompute,數據計算結果也可以同步到Hbase、Mysql這種DB上面。再通過統一的服務層對應用提供服務。下面這個是機器學習Pai做的一些算法訓練,再把訓練的結果通過OSS傳到一個算法的應用上面去。

這張圖可能也是業界比較流行的一個數倉分層的圖,因為我們這邊是數據中臺,所有的數據都是統一從ods層cdm層,然后ads層,去一層一層的往上去做精細,再到最上面,通過接口服務、文件服務、SQL服務,去提供多樣化的服務。再往上面,提供對內的一些數據產品,對高管、對小二,可能還有一些對外的,比如說像優酷的播放數,包括熱度這些對應用的數據。

這張圖其實就是我們從Hadoop遷到MaxCompute平臺上以來,兩個非常經典的案例。我們通過數據中臺對不同場景的用戶打通,來去賦能到兩個不同的場景,提升業務價值。

第二個,可能是內部的,我們通過優酷,還有集團內部的一些BU去做換量,我們通過統一的標簽去做樣本放大,把優酷的量導給其它的BU,把其它BU的量導給優酷,這樣去達到一個共贏的效果。

這張圖大部分互聯網公司不太會涉及到,就是關于反作弊的問題。這個是我們在MaxCompute做的一個反作弊的架構,通過原始的數據去提取它的特征,然后再通過算法模型,包括機器學習、深度學習、圖模型去支持流量反作弊、渠道反作弊等等。再通過業務場景上反作弊的監控工具,把監控到的作弊信息去打一個黑白樣本,再把這個黑白樣本跟特征一起來不斷的迭代優化算法模型。同時針對算法模型,做一個模型的評價,不斷來完善反作弊體系。

最后一點,其實還是跟成本相關,在日常使用中,一定是有小白用戶或者一些新來的用戶去錯誤的使用或者不在乎的使用一些資源,比如經常會有一些實習生或者是非技術的同學,如分析師,一個SQL消費比較高,這個其實是非常浪費資源,而且可能他一個任務,讓其他所有人的任務都在這兒等著排隊,實際上我們會去對整個的資源做一個治理。

從節點的粒度上,通過大數據來治理大數據,我們可以算出哪些表產出來之后,多少天沒有被讀取的,包括它的訪問跨度可能沒有那么大的,我們會去做下線或者去做治理,有一些業務場景可能并不是非常的重要或者它的時間要求沒有那么高,比如一些算法訓練,可以去做一些錯峰的調度,保證水位不要太高。從MaxCompute任務的角度,可以算出哪些任務有數據傾斜、哪些數據可能會有相似計算,哪些任務需要去做MapJoin,哪些任務需要去做一些裁剪,然后來節省它的IO。還有哪些任務會去做暴力掃描,掃一個月、掃一年的數據,哪些數據可能會有這樣一個數據膨脹,比如說它做了CUBE之類的這種復雜計算,一些算法模型的迭代;我們通過數據計算出來的這些跡象,去反推用戶,來去提高它的這樣一個數據的質量分,來去達到我們降低整個計算資源的目的。

在計算平臺的角度,我們也持續的在使用MaxCompute推出的一些非常高級的用法,比如我們這邊的HBO、Hash Cluster、Aliorc,HBO就是我們基于一個歷史的優化,這樣避免了用戶不知道怎么調參,我可能為了自己任務快一點,就調一個特別大的參數,這樣的話,對集成的資源是非常浪費的。通過這個功能,用戶就不用去調參數,集群自動調好,用戶就寫好自己業務邏輯就好了。

第二塊,可能就是最近兩年推出的Hash Cluster,當時在使用Hadoop的時候經常會出現,兩個大表Join的時候計算不出來,這個Hash Cluster其實是一個優化的利器。大表跟小表Join,可以做一些分發,做一些優化。大表跟大表就涉及到一個排序的問題。這個Hash Cluster,實際上就是提前把數據排好,中間省掉很多計算環節,來達到效率提升的目的。

第三個,Aliorc,在一些固定的場景上面,可以穩定的提升20%的計算效率。

第四個,Session。對一些比較小的數據,直接就放到SSD或緩存里面,一個節點下游有100個葉子場景,是非常友好的,因為低延遲秒出結果。同時,優酷也在使用Lightning解決計算加速,這個是在一個計算架構方案上的優化,它是一個MPP的架構。

最后一頁是存儲的優化,因為像一些關鍵的原始數據或者是需要審計的數據是不能刪的,永久不能刪的。實際上就會造成我們數據存儲的趨勢是一直往上不減的,計算會在某一個時間點達到一個平衡。當前用這么多的計算資源,再往后,其實應該也不會再大漲了,比如說舊的業務邏輯下掉了,會換新的業務邏輯,這樣會保持在一個相對平穩的波動上面。但是儲存,因為它有一些歷史的數據是永遠不能刪的,可能會出現一直在增長,而且是指數級的。所以我們也會持續關注存儲的情況,我們主要有四個手段。

第一個,還是通過大數據來治大數據,去看哪些表它的訪問不夠或者它的訪問跨度不夠。就是對一些生命周期的優化,來去控制它的增速。包括下面的,剛才提到的Aliorc,實際上是做壓縮的,我們會去做一些大字段的拆分,來提高壓縮的比例。

OK,這個是優酷在MaxCompute中的一些應用場景,感謝大家的聆聽。


原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的优酷背后的大数据秘密的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日本丰满少妇裸体自慰 | 在线观看日本视频 | 佐山爱在线视频 | 香港三级在线视频 | 国产精品亚洲综合 | 一女被多男玩喷潮视频 | 深夜福利麻豆 | 精品国产一区二区视频 | 黑人狂躁日本妞hd | 久久免费国产视频 | 视频一区国产精品 | 性色欲网站人妻丰满中文久久不卡 | 在线观看免费av片 | 自拍偷拍亚洲天堂 | 日韩一级片一区二区 | 老司机av导航 | www国产| 青青青国内视频在线观看软件 | 亚洲人成电影网 | 啪啪网站视频 | 日本天堂一区 | 男人天堂新地址 | 国产福利一区在线 | 欧美污视频在线观看 | 欧美日韩一卡 | 精品国产黄 | 免费播放黄色片 | 色综合天天综合 | 欧美九九视频 | 日日爱669| 免费在线观看a视频 | 上海女子图鉴 | 福利视频在线导航 | 在线不卡一区二区 | 五月婷综合网 | 国产精品一区二区三区四区视频 | 欧美人交a欧美精品 | jlzzjlzz亚洲女人18 | 影音先锋欧美资源 | 丰满大乳露双乳呻吟 | 黄色一几片 | 四虎视频在线观看 | 久久538| 色老汉视频 | 麻豆传媒网站 | 老师上课夹震蛋高潮了 | 成人高清视频在线观看 | 双性人hdsexvideos | 国产精品人妻一区二区三区 | 清冷学长被爆c躁到高潮失禁 | 成人免费看片在线观看 | 男女日批网站 | 日本一区二区精品视频 | 国产无套精品一区二区三区 | 国产乱来| 久久久久国产精品一区二区 | 香蕉久久国产 | 在线a视频 | 福利在线网站 | 亚洲精品一区二区二区 | 欧美国产专区 | 涩涩一区 | 国产午夜福利一区 | 亚洲欧美a | 成人va在线观看 | 国产香蕉视频在线播放 | 国产精品丝袜黑色高跟鞋 | 日韩一区二区三区网站 | av资源站| 免费毛片在线播放 | 在线视频网站 | 综合性色 | 日本三区视频 | 麻豆影视免费观看 | 精品不卡一区 | av免费网| www.av麻豆| 亚洲 欧美 日韩 在线 | 天天干网站 | 西川结衣在线观看 | 国产一区免费观看 | 欧美视频第一区 | 久操网站| 精品人妻人人做人人爽 | 少妇又色又爽又高潮极品 | 性一交一乱一乱一视频 | 日韩欧美在线观看免费 | 东南亚毛片 | 国产女人在线视频 | 3d动漫精品啪啪一区二区三区免费 | 4438x亚洲| 国产97免费视频 | 免费av电影网址 | www.久久久久久久久 | 成人免费视屏 | 日韩黄色视屏 | 波多野42部无码喷潮在线 | 亚洲第一区在线观看 | 日本涩涩视频 |