大数据打造你的变美频道——数加平台上小红唇的大数据实践
在2017在線峰會(huì)——票選最美云上大數(shù)據(jù)暨大數(shù)據(jù)技術(shù)峰會(huì)上,來(lái)自小紅唇的王洋分享了數(shù)加平臺(tái)上小紅唇的大數(shù)據(jù)實(shí)踐。他對(duì)數(shù)據(jù)倉(cāng)儲(chǔ)解決方案和搜索引擎進(jìn)行了詳細(xì)介紹。通過(guò)算法平臺(tái)應(yīng)用的基于視頻元信息的回歸、近義詞、業(yè)務(wù)總線三個(gè)案例具體介紹了數(shù)加平臺(tái)的大數(shù)據(jù)應(yīng)用實(shí)踐。
?
以下內(nèi)容根據(jù)直播視頻整理而成。
?
小紅唇App
小紅唇App是國(guó)內(nèi)最大的一款針對(duì)15-25歲年輕女性的垂直視頻分享社區(qū)和社交化電商平臺(tái)。其為用戶(hù)提供了豐富的平臺(tái)內(nèi)容、活躍的社區(qū)生態(tài)和優(yōu)質(zhì)的產(chǎn)品選擇。用一句話(huà)概括小紅唇業(yè)務(wù)模式為短視頻美妝社區(qū)電商。
數(shù)據(jù)倉(cāng)庫(kù)
小紅唇App的數(shù)據(jù)來(lái)源主要為兩個(gè)方面:業(yè)務(wù)服務(wù)器產(chǎn)生的API日志,代表著用戶(hù)的各種行為數(shù)據(jù);服務(wù)器產(chǎn)生的各種交易數(shù)據(jù),比如用戶(hù)發(fā)的帖子、買(mǎi)的東西。用戶(hù)行為日志是通過(guò)阿里云的datahub組件把API日志采集到MaxCompute平臺(tái)上。業(yè)務(wù)數(shù)據(jù)是通過(guò)阿里云提供的DATAX工具載入到MaxCompute平臺(tái)上。目前,業(yè)務(wù)數(shù)據(jù)庫(kù)已經(jīng)完全遷移到了阿里的RDS平臺(tái),只需要在數(shù)加的IDE里做一些簡(jiǎn)單的配置即可將數(shù)據(jù)完整的遷移過(guò)來(lái)。當(dāng)所有數(shù)據(jù)都搬到MaxCompute平臺(tái)上之后,在其上做的數(shù)據(jù)開(kāi)發(fā)更加輕松。在其上,可以用類(lèi)SQL的語(yǔ)句編寫(xiě)數(shù)據(jù)清洗和轉(zhuǎn)換的執(zhí)行任務(wù),平臺(tái)同時(shí)提供管理器對(duì)任務(wù)進(jìn)行調(diào)度和管理。在數(shù)倉(cāng)之上,構(gòu)建了很多應(yīng)用,最直接的就是QUICK BI。社區(qū)內(nèi)容運(yùn)營(yíng)和商品運(yùn)營(yíng)都是依賴(lài)于實(shí)際的運(yùn)營(yíng)數(shù)據(jù)來(lái)做進(jìn)一步的決策和運(yùn)營(yíng)商的策略調(diào)整,QUICK BI對(duì)運(yùn)營(yíng)的指導(dǎo)非常大。阿里云的QUICK BI不需要開(kāi)發(fā)可視化的前端,只需要在數(shù)加的data IDE里面做相應(yīng)數(shù)據(jù)任務(wù)的編排就可以很容易的通過(guò)QUICK BI產(chǎn)品展示出來(lái)。并且,在QUICK BI可視化的界面上不僅有各種圖表的展現(xiàn)還提供了一定功能的多維數(shù)據(jù)分析,極大提高了運(yùn)營(yíng)效率。
推薦引擎
推薦引擎的整體架構(gòu)如上圖所示。虛線框以?xún)?nèi)是推薦引擎產(chǎn)品本身的內(nèi)容。我們需要做的僅僅是把我們的數(shù)據(jù)按照推薦引擎需要的格式準(zhǔn)備好,在MaxCompute里面把對(duì)應(yīng)的表都建好。主要應(yīng)用場(chǎng)景是短視頻和圖片的推薦,推薦引擎打理好一切之后,得到推薦結(jié)果以API形式供業(yè)務(wù)服務(wù)器調(diào)用。除了便捷性,推薦引擎還提供了非常強(qiáng)的靈活性。主要做了首頁(yè)推薦和詳情頁(yè)推薦,首頁(yè)推薦主要是用基于協(xié)同過(guò)濾的算法來(lái)計(jì)算出結(jié)果,詳情頁(yè)推薦對(duì)阿里云的模板進(jìn)行了修改引入了基于TFIDF算法的計(jì)算節(jié)點(diǎn)來(lái)加強(qiáng)了相關(guān)性的推薦。同時(shí),推薦引擎還支持A/B TEST測(cè)試體系,對(duì)模板算法和參數(shù)的細(xì)微調(diào)整都可以定量化的分析和計(jì)算出來(lái)。推薦引擎的另外一個(gè)優(yōu)勢(shì)是可以和流計(jì)算相結(jié)合,把用戶(hù)的數(shù)據(jù)實(shí)時(shí)導(dǎo)入計(jì)算引擎中,實(shí)時(shí)對(duì)推薦結(jié)果進(jìn)行修正。
算法平臺(tái)應(yīng)用
基于視頻元信息的回歸
作為一個(gè)UGC的平臺(tái),用戶(hù)上傳內(nèi)容的質(zhì)量是參差不齊的,為了保證平臺(tái)內(nèi)容的質(zhì)量。編輯進(jìn)行了很多精選和挑選的工作。如何提升編輯的篩選效率?為此,選擇了阿里云的機(jī)器學(xué)習(xí)平臺(tái)。通過(guò)視頻的元信息(時(shí)長(zhǎng),幀率,碼率,描述內(nèi)容,亮度,對(duì)比度,分辨率,銳度)的抽取,形成了特征矩陣,隨機(jī)選取了已有視頻數(shù)據(jù);以是否經(jīng)過(guò)編輯精選做了有監(jiān)督的邏輯回歸訓(xùn)練,訓(xùn)練出模型;對(duì)新的視頻應(yīng)用這個(gè)模型給出預(yù)判評(píng)估,作為視頻編輯的參考, 及搜索推薦的影響因子。
具體的過(guò)程如上圖所示。我們需要將自己的視頻信息進(jìn)行量化,通過(guò)拖拽、拼接構(gòu)建起訓(xùn)練的模型。最左邊這張圖應(yīng)用了邏輯回歸、線性回歸、隨機(jī)森林三種模型進(jìn)行訓(xùn)練,目前選用的是邏輯回歸的模型。在算法平臺(tái)訓(xùn)練完模型之后會(huì)非常容易的導(dǎo)入到Date IDE中,準(zhǔn)備好的新視頻數(shù)據(jù)就會(huì)把模型節(jié)點(diǎn)加進(jìn)去,得到對(duì)應(yīng)的預(yù)測(cè)打分。最右邊的圖是把評(píng)分結(jié)果通過(guò)QUICK BI展示。整個(gè)過(guò)程沒(méi)有太多的工作量,只需要在平臺(tái)上做一些配置就可以完成整個(gè)視頻元信息的回歸和訓(xùn)練。
近義詞
近義詞主要是為了優(yōu)化搜索的體驗(yàn),具體是把用戶(hù)發(fā)布的內(nèi)容、視頻的名稱(chēng)、描述、用戶(hù)的標(biāo)簽、評(píng)論等語(yǔ)料信息通過(guò)阿里云word2vec算發(fā)獲取詞向量,通過(guò)余弦相似度計(jì)算獲取近義詞,通過(guò)人工篩選、錄入到搜索引擎的同義詞庫(kù)中提升搜索體驗(yàn)。
最上層是用戶(hù)輸入的元數(shù)據(jù),通過(guò)幾個(gè)步驟,以及K-means聚類(lèi)算法做了一些分析。
業(yè)務(wù)總線
最開(kāi)始使用流計(jì)算只是為了提升一些應(yīng)用場(chǎng)景(搜索熱詞統(tǒng)計(jì)、實(shí)時(shí)熱度統(tǒng)計(jì))的響應(yīng)速度。但是,通過(guò)流計(jì)算已經(jīng)截取了所有的業(yè)務(wù)事件,那么是否可以通過(guò)流計(jì)算將業(yè)務(wù)事件實(shí)時(shí)觸發(fā)出來(lái)支撐類(lèi)似于發(fā)送優(yōu)惠券、推送消息等業(yè)務(wù)?實(shí)踐證明了其可行性。目前,通過(guò)流計(jì)算這套業(yè)務(wù)總線體系的時(shí)延控制在了秒級(jí)。
數(shù)加的“降維打擊”
小紅唇App擁抱數(shù)加已有半年光景,對(duì)數(shù)加的體驗(yàn)非常好,其感受主要為以下四點(diǎn):不需要像傳統(tǒng)大數(shù)據(jù)業(yè)務(wù)一樣構(gòu)建一個(gè)非常復(fù)雜的Hadoop棧,并且對(duì)其進(jìn)行運(yùn)維,節(jié)省了金錢(qián)和時(shí)間成本;MaxCompute的整個(gè)生態(tài)系統(tǒng)設(shè)計(jì)的比較完善,無(wú)需專(zhuān)職數(shù)據(jù)團(tuán)隊(duì),降低了人員成本;得益于數(shù)加的生態(tài),可以在21天內(nèi)搭建推薦系統(tǒng);借助流計(jì)算非侵入實(shí)現(xiàn)業(yè)務(wù)總線,滿(mǎn)足了絕大部分場(chǎng)景。總結(jié)
以上是生活随笔為你收集整理的大数据打造你的变美频道——数加平台上小红唇的大数据实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 网站制作公司成功的网站建设需要哪些因素
- 下一篇: 谈谈CTO、技术总监、首席架构师的区别