大数据打造你的变美频道——数加平台上小红唇的大数据实践
在2017在線峰會——票選最美云上大數據暨大數據技術峰會上,來自小紅唇的王洋分享了數加平臺上小紅唇的大數據實踐。他對數據倉儲解決方案和搜索引擎進行了詳細介紹。通過算法平臺應用的基于視頻元信息的回歸、近義詞、業務總線三個案例具體介紹了數加平臺的大數據應用實踐。
?
以下內容根據直播視頻整理而成。
?
小紅唇App
小紅唇App是國內最大的一款針對15-25歲年輕女性的垂直視頻分享社區和社交化電商平臺。其為用戶提供了豐富的平臺內容、活躍的社區生態和優質的產品選擇。用一句話概括小紅唇業務模式為短視頻美妝社區電商。
數據倉庫
小紅唇App的數據來源主要為兩個方面:業務服務器產生的API日志,代表著用戶的各種行為數據;服務器產生的各種交易數據,比如用戶發的帖子、買的東西。用戶行為日志是通過阿里云的datahub組件把API日志采集到MaxCompute平臺上。業務數據是通過阿里云提供的DATAX工具載入到MaxCompute平臺上。目前,業務數據庫已經完全遷移到了阿里的RDS平臺,只需要在數加的IDE里做一些簡單的配置即可將數據完整的遷移過來。當所有數據都搬到MaxCompute平臺上之后,在其上做的數據開發更加輕松。在其上,可以用類SQL的語句編寫數據清洗和轉換的執行任務,平臺同時提供管理器對任務進行調度和管理。在數倉之上,構建了很多應用,最直接的就是QUICK BI。社區內容運營和商品運營都是依賴于實際的運營數據來做進一步的決策和運營商的策略調整,QUICK BI對運營的指導非常大。阿里云的QUICK BI不需要開發可視化的前端,只需要在數加的data IDE里面做相應數據任務的編排就可以很容易的通過QUICK BI產品展示出來。并且,在QUICK BI可視化的界面上不僅有各種圖表的展現還提供了一定功能的多維數據分析,極大提高了運營效率。
推薦引擎
推薦引擎的整體架構如上圖所示。虛線框以內是推薦引擎產品本身的內容。我們需要做的僅僅是把我們的數據按照推薦引擎需要的格式準備好,在MaxCompute里面把對應的表都建好。主要應用場景是短視頻和圖片的推薦,推薦引擎打理好一切之后,得到推薦結果以API形式供業務服務器調用。除了便捷性,推薦引擎還提供了非常強的靈活性。主要做了首頁推薦和詳情頁推薦,首頁推薦主要是用基于協同過濾的算法來計算出結果,詳情頁推薦對阿里云的模板進行了修改引入了基于TFIDF算法的計算節點來加強了相關性的推薦。同時,推薦引擎還支持A/B TEST測試體系,對模板算法和參數的細微調整都可以定量化的分析和計算出來。推薦引擎的另外一個優勢是可以和流計算相結合,把用戶的數據實時導入計算引擎中,實時對推薦結果進行修正。
算法平臺應用
基于視頻元信息的回歸
作為一個UGC的平臺,用戶上傳內容的質量是參差不齊的,為了保證平臺內容的質量。編輯進行了很多精選和挑選的工作。如何提升編輯的篩選效率?為此,選擇了阿里云的機器學習平臺。通過視頻的元信息(時長,幀率,碼率,描述內容,亮度,對比度,分辨率,銳度)的抽取,形成了特征矩陣,隨機選取了已有視頻數據;以是否經過編輯精選做了有監督的邏輯回歸訓練,訓練出模型;對新的視頻應用這個模型給出預判評估,作為視頻編輯的參考, 及搜索推薦的影響因子。
具體的過程如上圖所示。我們需要將自己的視頻信息進行量化,通過拖拽、拼接構建起訓練的模型。最左邊這張圖應用了邏輯回歸、線性回歸、隨機森林三種模型進行訓練,目前選用的是邏輯回歸的模型。在算法平臺訓練完模型之后會非常容易的導入到Date IDE中,準備好的新視頻數據就會把模型節點加進去,得到對應的預測打分。最右邊的圖是把評分結果通過QUICK BI展示。整個過程沒有太多的工作量,只需要在平臺上做一些配置就可以完成整個視頻元信息的回歸和訓練。
近義詞
近義詞主要是為了優化搜索的體驗,具體是把用戶發布的內容、視頻的名稱、描述、用戶的標簽、評論等語料信息通過阿里云word2vec算發獲取詞向量,通過余弦相似度計算獲取近義詞,通過人工篩選、錄入到搜索引擎的同義詞庫中提升搜索體驗。
最上層是用戶輸入的元數據,通過幾個步驟,以及K-means聚類算法做了一些分析。
業務總線
最開始使用流計算只是為了提升一些應用場景(搜索熱詞統計、實時熱度統計)的響應速度。但是,通過流計算已經截取了所有的業務事件,那么是否可以通過流計算將業務事件實時觸發出來支撐類似于發送優惠券、推送消息等業務?實踐證明了其可行性。目前,通過流計算這套業務總線體系的時延控制在了秒級。
數加的“降維打擊”
小紅唇App擁抱數加已有半年光景,對數加的體驗非常好,其感受主要為以下四點:不需要像傳統大數據業務一樣構建一個非常復雜的Hadoop棧,并且對其進行運維,節省了金錢和時間成本;MaxCompute的整個生態系統設計的比較完善,無需專職數據團隊,降低了人員成本;得益于數加的生態,可以在21天內搭建推薦系統;借助流計算非侵入實現業務總線,滿足了絕大部分場景。總結
以上是生活随笔為你收集整理的大数据打造你的变美频道——数加平台上小红唇的大数据实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网站制作公司成功的网站建设需要哪些因素
- 下一篇: 谈谈CTO、技术总监、首席架构师的区别