当推荐系统遇上多模态Embedding
在微信視視頻號推薦算法大賽中,給出來融合了OCR、ASR、圖像、文字的多模態的內容理解特征向量Feed Embedding,共512維向量。對于給定的一定數量到訪過微信視頻號“熱門推薦”的用戶,根據這些用戶在視頻號內的歷史n天的行為數據,通過算法在測試集上預測出這些用戶對于不同視頻內容的互動行為(包括點贊、點擊頭像、收藏、轉發等)的發生概率。
可見,多模態Embedding在推薦系統后續發展中的重要性,在本文之前,煉丹筆記也探討類似的問題,包括《推薦融合GNN,圖譜、多模態竟取得了如此驚艷的效果》和《多模態推薦之用戶評論篇》,新關注的同學對具體細節感興趣的可以直接點擊標題跳轉了解。
先看下整體模型架構:
MKGAT可以拆解為兩個子模塊,多模態embeding模塊和推薦模塊。在介紹各個子模塊前,我們先介紹兩個小的模塊:
- 多模態圖譜實體編碼器:給不同類型實體編碼。
- 多模態圖譜注意力層:用注意力機制,融合所有鄰居節點的信息,學習新實體的embedding。
多模態embeding把聯合知識圖譜作為輸入,充分利用上面提到的兩個小模塊,去學習各個entity的表達。再用各個實體embeding的表達,去學習圖譜之間的關系。推薦模塊充分利用知識圖譜學到的embedding ,和聯合知識圖譜去豐富用戶和items的表達,從而提升推薦效果。
目前非常多的推薦系統主要使用用戶的一些基礎反饋信息來作為最終的標簽進行模型的訓練,例如點擊/購買等。
但是卻鮮有文章去進一步挖掘用戶的其它反饋。例如用戶對于該產品的評論,很多的評論相較于點擊等反饋更加具有表示性,比如你經常向一個用戶推薦一類商品,該商品雖然點擊率很高,但是該用戶之前已經評論了惡心之類的,這么繼續推下去的化很可能使得該用戶不再使用該軟件。所以推薦系統里面的用戶評論是否有用呢,按理說是有用的,比如有些不良的商品點擊率極高,但是評論卻極差,通過挖掘評論的信息是可以很好地挖掘出此類的信息。
但是此類的評論信息是否真的有用,有多大的用戶都是一個問好,實驗顯示:在大多數實踐情況下, 最近的系統加入評論的效果是不如簡單基線模型效果的;許多這樣的系統在模型中隱藏評論時,性能只會有微小的變化;所以本文得出了下面的幾個結論:
- 評論可能是非常重要的,但是最近的建模技術是很值得商榷的;
- 評論被作為一個正則而不是數據加入模型看起來更加有效;
- 該爐溫更加關注一致的經驗評估,尤其是數據集的選擇和預處理策略;
KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall 多模態召回賽題由阿里巴巴達摩院智能計算實驗室發起并組織,關注電商行業中的多模信息學習問題。
賽道提供了淘寶商城的真實數據,包括兩部分,
1)搜索短句(Query)相關,為原始數據;
2)商品圖片相關,考慮到知識產權等,提供的是使用Faster RCNN在圖片上提取出的特征向量,兩部分數據被組織為基于Query的圖片召回問題,即有關文本模態和圖片模態的召回問題。
大規模的營收和高速增長同時預示著,消費者對于電商服務有著巨大的需求。跟隨這一增長,電商行業中各種模態的信息越來越豐富,如直播、博客等等。怎樣在傳統的搜索引擎和推薦系統中引入這些多模信息,更好地服務消費者,值得相關從業者深入探討。
美團的季軍方案主體部分包含兩方面的內容:
1)通過聯合多樣化的負采樣策略和蒸餾學習以橋接訓練數據和測試集的分布,處理分布不一致問題;
2)采取細粒度的文本-圖片匹配網絡,進行多模信息融合,處理復雜多模信息匹配問題。
3)最后,通過兩階段訓練和多模融合,進一步提升了模型表現。
整個方案的流程如下圖所示:
具體細節,盡管通過多樣負采樣策略和預訓練,可從不同角度去逼近真實分布,但由于未直接利用測試集信息指導負采樣,這些采樣策略仍有不足。因此,該方案采用蒸餾學習的辦法,來進一步優化負采樣邏輯,以求拿到更貼近測試集的樣本集分布。
亞軍方案從單流模型和雙流模型中各選擇了相應SOTA的算法ImageBERT和LXMERT。具體而言,針對比賽任務,兩種算法分別進行了如下改進:
(1)本方案中一共用到了兩個版本的 ImageBERT模型:
ImageBERT-A:將Segment Embedding統一編碼為0,不對圖片特征和Query文本單獨進行編碼,在[CLS]位輸出Query與Image的匹配關系,通過Cross Entropy Loss計算損失。
ImageBERT-B:Position Embedding去掉了ImageBert中圖像目標框位置信息的Position Embedding結構。同時文本的Segment Embedding編碼為0,圖片特征的Segment Embedding編碼為1。
(2)LXMERT模型方面主要的改進包括:
- 圖片特征部分融入了目標框類別標簽所對應的文本特征。
- Text-Image Matching Task中使用兩層全連接網絡進行圖片和文本融合特征的二分類,其中第一個全連接層之后使用GeLU進行激活,然后通過LayerNorm進行歸一化處理。
- 在第二個全連接層之后采用Cross Entropy Loss訓練網絡。
總結
以上是生活随笔為你收集整理的当推荐系统遇上多模态Embedding的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用预训练GNN预估点击率有奇效?
- 下一篇: Facebook向量召回双塔模型