日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡

發布時間:2024/10/8 编程问答 53 豆豆
生活随笔 收集整理的這篇文章主要介紹了 KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者?|?小紅書推薦技術團隊

來源?|?機器之心專欄

來自小紅書的研究者在多樣化推薦中,從用戶體驗和系統應用的視角出發,提出了一種滑動頻譜分解(SSD)的方法,該方法可以捕捉用戶在瀏覽長項目序列時對多樣性的感知。通過理論分析、離線實驗和在線 A/B 測試,驗證了該方法的有效性。

多樣化推薦(diversified recommendation)是推薦系統中一個重要的課題。從用戶視角分析,多樣性可以幫助用戶擴展和發現新的興趣,但是繁多的內容則會令人厭倦。從平臺視角分析,多樣性可以幫助系統探索用戶喜好,防止內容越推越窄的情況,同時也可以讓小眾和長尾的內容得到曝光,促進生態發展。

在一個大規模的推薦系統中,我們可以從三個角度來理解多樣化的推薦結果,如上圖所示。首先是推薦質量(quality),即推薦的結果需要匹配用戶的興趣,可能是用戶歷史交互過的,也可能是第二點,即多樣性所考慮的,用戶興趣的擴展和發現。除此之外,我們還需要考慮公平性(fairness),無論是衡量質量還是多樣性,都要兼顧小眾興趣和長尾內容。推薦質量使得我們可以對點擊率、時長等行為建模,進而轉換為一個分類 / 回歸問題。推薦結果的多樣性,一般由兩兩之間的相似性(similarity)得到,例如 DPP(Determinantal Point Process)。

本文介紹的工作,即小紅書發表于 KDD 2021 的《Sliding Spectrum Decomposition for Diversified Recommendation》一文,將從用戶體驗和系統應用的視角,試圖解決其中的兩個問題:如何在質量和多樣性之間獲得一個較好的權衡(trade-off),以及如何公平地衡量相似性。

論文地址:

https://arxiv.org/pdf/2107.05204.pdf

研究動機

小紅書是國內最大的社交平臺之一,擁有超過一億的月度活躍用戶。

小紅書中的 item 展示為「筆記」的形式,上圖是小紅書的 Explore Feed 推薦的一個示意圖。用戶可以在雙列中下滑瀏覽,同時可以點擊感興趣的筆記進入詳情頁查看更多內容,或者與博主進行互動。與固定列表的推薦不同,用戶可以選擇在 Feed 中進行持續的瀏覽,多樣性的衡量需要考慮這種長序列的情況。另外受限于手機屏幕的大小,或者短時記憶的影響,研究者在建模多樣性的同時也應該考慮「瀏覽窗口大小」。

從用戶的視角來看,Feed 就像是他們觀測到的一個一維時間序列,每個時刻為一篇筆記。在經典的時間序列分析中,如西瓜的單價,我們可以將其分解為經營成本、季節、噪聲,如上圖所示。類比到推薦場景,如果我們也能將筆記序列分解成幾個正交的部分,或許就能得到一個較好的多樣性衡量辦法。

方法介紹

滑動頻譜分解(Sliding Spectrum Decomposition,SSD)

該研究將用戶觀測到的 Feed 序列,轉換為下圖所示的 Tensor。

其中序列總長度為T,用戶瀏覽窗口大小為w,推薦的 item 序列為,滑動步長為 1,為筆記在向量空間中的表示。是一個三維的張量,但是直接研究它有些困難。可以先考慮較為特殊的情況:w = T,即窗口大小等于序列總長度。此時僅需要考慮一個窗口內的筆記,那如何衡量他們的多樣性呢?下圖展示了一個簡單的例子,可以看到,固定的情況下,相較、,可以提供更多的多樣性。在二維平面情況下,面積是一個很好的度量,與圍成的平行四邊形面積更大,于是他們組合的多樣性也就更好。擴展到更一般的情況,我們可以用體積來計算一個窗口內筆記的多樣性。

回到長序列問題上,我們需要處理的問題含有多個窗口。多個窗口聯合的體積是沒有一個直觀定義的,SSD 對這種情況下的體積做了一個推廣。具體而言,一個窗口內筆記的體積,可以用矩陣的奇異值乘積來表示,這里的矩陣即是 Tensor的一行,注意到奇異值分解在 Tensor 情況下是有定義的,于是我們對 Tensor做奇異值分解,將分解得到的奇異值,作為了 Tensor的體積,即多個窗口聯合的多樣性。與每篇筆記的質量結合,即可得到如下的 trade-off 目標,其中 Z 是候選集合,是一個平衡系數。

基于內容與基于協同過濾的方法(CB2CF)

在 SSD 中,該研究依賴于筆記的向量表示來衡量多樣性,向量兩兩之間的相似性需要符合用戶對于多樣性的感知。有兩種直觀的思路來得到這些向量。一是基于內容(content-based)的方法,即構造一個基于筆記圖片和文字內容的監督任務,將監督模型的中間層結果作為向量表示。二是基于協同過濾方法,即通過全體用戶的交互歷史,構造 CF 向量。

然而在實際應用中,單純使用這兩種方法都有一定的缺陷。基于內容的方法依賴于大量的先驗知識,而基于協同過濾的方法對長尾興趣和新內容卻非常不友好。于是該研究設計了上圖所示的 CB2CF (Content-based to Collaborative Filter)方法,通過內容信息預估協同過濾的結果。在輸入上僅使用內容,這樣即使對于新內容也能依賴模型的泛化能力得到較好的結果。在輸出上依賴全體用戶的協同標注,使得研究者能夠在統計上學習用戶感知的信號。

實驗結果

在離線實驗中,研究者對比了 CF 和 CB2CF 在長尾上的表現。在四個高區分度的類目下,由實驗結果可得 CB2CF 有著較好的區分能力。

在線上實驗中,研究者用 SSD 與 SOTA 的 DPP 模型做了 A/B 實驗,在時長(Time)、互動(Engage)、ILAD(用戶瀏覽筆記之間的平均距離,即曝光多樣性)、MRT(用戶平均閱讀類目數,即消費多樣性)上都取得了一定的收益。

小紅書目前有超過一億的月度活躍用戶,在算法和工程上都有著很多有趣并富有挑戰的問題。除了推薦多樣性外,我們還在召回、排序、強化學習、圖神經網絡、CV、NLP 等多個方向進行著持續的探索和落地,職級、薪水 open,base 上海 / 北京,如有任何問題,請直接聯系 yanhuahuang@xiaohongshu.com。

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的KDD 2021 | 小红书推荐多样性解决方案:SSD在质量、多样性之间获得较好权衡的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。