日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

网易云音乐:基于分布式图学习PGL的推荐系统优化之路

發(fā)布時間:2024/10/12 windows 68 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网易云音乐:基于分布式图学习PGL的推荐系统优化之路 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在“精準(zhǔn)推薦者得民心”的今天,推薦系統(tǒng)已成為各大互聯(lián)網(wǎng)公司的標(biāo)配。但由于現(xiàn)實中很多數(shù)據(jù)是非歐氏空間生成的(例如,社交網(wǎng)絡(luò)、信息網(wǎng)絡(luò)等),一些復(fù)雜場景下的業(yè)務(wù)需求很難通過協(xié)同過濾等基于歷史行為挖掘用戶或產(chǎn)品相似性的傳統(tǒng)算法來滿足。圖神經(jīng)網(wǎng)絡(luò)作為一種約束性較少、極其靈活的數(shù)據(jù)表征方式,在深度學(xué)習(xí)各主要領(lǐng)域中嶄露頭角,一系列圖學(xué)習(xí)模型涌現(xiàn)并得到越來越多的應(yīng)用。

網(wǎng)易云音樂在推薦領(lǐng)域的探索

作為國民級的音樂 App,網(wǎng)易云音樂很久之前就將定位從傳統(tǒng)的音樂工具軟件轉(zhuǎn)移到音樂內(nèi)容社區(qū),致力于聯(lián)結(jié)泛音樂產(chǎn)品與用戶,打造最懂用戶的音樂 App。在音樂內(nèi)容社區(qū)中,直播可以說是用戶參與度極高的場景了,云音樂內(nèi)部投入了大量的人力物力以求將匹配度更高的主播推薦給用戶,但仍然面臨多重嚴(yán)峻的挑戰(zhàn)。

如何破解歷史行為稀少的用戶冷啟動問題

眾所周知,推薦系統(tǒng)的整體框架主要包括召回、粗排和精排3個部分。其中,最底層的召回模型具有舉足輕重的作用,而成功的召回推理需要依賴充足的歷史數(shù)據(jù)。但在云音樂的業(yè)務(wù)場景中,通過站內(nèi)廣告看到直播推薦的用戶很大比例是直播功能的新用戶,即沒有產(chǎn)生過觀看直播行為數(shù)據(jù)的用戶。如何向這類數(shù)據(jù)稀疏的用戶推薦合適的內(nèi)容成了亟待解決的難題,這類問題也通常被稱為冷啟動。

大規(guī)模圖模型如何訓(xùn)練

云音樂現(xiàn)有計算資源已全面實現(xiàn)容器化部署,對于各個業(yè)務(wù)團(tuán)隊來說,計算資源都是有限的,需要以最高效合理的方式利用有限的資源。如何在有限的分布式資源調(diào)控策略下低本高效地完成大規(guī)模圖神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練,成為必須攻克的難題。

PGL 圖神經(jīng)網(wǎng)絡(luò)助力推薦場景落地

為了解決以上問題,網(wǎng)易云音樂的研發(fā)團(tuán)隊調(diào)研了大量開源方案,最終選擇了對大規(guī)模圖訓(xùn)練更加友好的百度飛槳分布式圖學(xué)習(xí)框架 PGL,作為云音樂的基礎(chǔ)框架。

基于 PGL 的行為域知識遷移解決冷啟動問題

云音樂直播場景的新用戶中,有很多在音樂、歌單、Mlog 等業(yè)務(wù)中產(chǎn)生過較豐富的歷史行為,能否通過將這部分歷史行為知識映射到直播領(lǐng)域,來解決“行為”數(shù)據(jù)不足的問題呢?

帶著疑問,云音樂引入了圖模型結(jié)構(gòu),以多種不同類型的實體(如歌曲、DJ、Query、RadioID 等)為節(jié)點,通過用戶與主播、用戶與歌曲、Query 與主播等歷史行為關(guān)系,構(gòu)建了一張統(tǒng)一的圖關(guān)系網(wǎng)絡(luò)。

然后,基于飛槳圖學(xué)習(xí)框架 PGL 對圖模型進(jìn)行訓(xùn)練。先采用 DeepWalk、Metapath2Vec、GraphSage 等模型學(xué)習(xí)出足夠強大的 Graph Embedding 表示來建模實體 ID;再通過向量召回,將用戶在歌曲、Query 等處的行為遷移到主播領(lǐng)域,達(dá)到召回合適主播的目的。

基于 PGL 通用的分布式能力進(jìn)行訓(xùn)練

云音樂的數(shù)據(jù)規(guī)模非常龐大,數(shù)據(jù)關(guān)系即使經(jīng)過裁剪也高達(dá)億級別以上。在常用的硬件資源配備情況下,此等量級規(guī)模的數(shù)據(jù)早已成為某些開源的圖神經(jīng)網(wǎng)絡(luò)框架的瓶頸,需要使用極其昂貴的計算資源才能解決。對于數(shù)據(jù)規(guī)模必將持續(xù)增大的云音樂來說,相較于使用什么類型的模型,能否在這種數(shù)據(jù)規(guī)模下訓(xùn)練出模型才是優(yōu)先要考慮的關(guān)鍵問題,也是網(wǎng)易云音樂與 PGL 成功牽手的關(guān)鍵因素!

百度飛槳深度學(xué)習(xí)平臺 PaddlePaddle 2019 年開源的分布式圖學(xué)習(xí)框架 PGL,原生支持圖學(xué)習(xí)中較為獨特的分布式圖存儲(Distributed Graph Storage)和分布式采樣(Distributed Sampling),可以方便地通過上層 Python 接口,將 圖的特征(如Side Feature等)存儲在不同的 Server 上,也支持通用的分布式采樣接口,將不同子圖的采樣分布式處理,并基于 PaddlePaddle Fleet API 來完成分布式訓(xùn)練(Distributed Training),實現(xiàn)在分布式的“瘦計算節(jié)點”上加速計算。這些能力對云音樂內(nèi)容社區(qū)直播推薦遇到的訓(xùn)練問題來說,極具魅力!

實驗對比顯示,在主播推薦場景采用圖計算帶來有效觀看大幅提升,尤其在新用戶和新主播冷啟動上引入其它域數(shù)據(jù)后有了明顯提升。

期待你的加入

百度開發(fā)者中心已開啟征稿模式,歡迎開發(fā)者登錄developer.baidu.com進(jìn)行投稿,優(yōu)質(zhì)文章將獲得豐厚獎勵和推廣資源。

總結(jié)

以上是生活随笔為你收集整理的网易云音乐:基于分布式图学习PGL的推荐系统优化之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。