日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爱奇艺深度语义表示学习的探索与实践

發布時間:2024/1/23 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爱奇艺深度语义表示学习的探索与实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

導讀:基于學術界和工業界經驗,愛奇藝設計和探索出了一套適用于愛奇藝多種業務場景的深度語義表示學習框架。在推薦、搜索、直播等多個業務中的召回、排序、去重、多樣性、語義匹配、聚類等場景上線,提高視頻推薦的豐富性和多樣性,改善用戶觀看和搜索體驗。本文將介紹愛奇藝深度語義表示框架的核心設計思路和實踐心得。

01

背景

英國語言學家 J.R.Firth 在1957年曾說過:" You shall know a word by the company its keeps. " ?Hinton 于1986年基于該思想首次提出 Distributed representation ( 分布式表示 ) 的概念,認為具有相似上下文的詞往往具有相似的語義,其中 distributed 是指將詞語的語義分布到詞向量的各個分量上。該方法可以把詞映射到連續實數向量空間,且相似詞在該空間中位置相近,典型的代表作是基于神經網絡的語言模型 ( Neural Network Language Model,NNLM )?[1]。2003年 Google 提出 word2vec [2]?算法學習 word embedding ( 詞嵌入或詞向量 ),使 Distributed representation 真正受到學術界、工業屆的認可, 從而開啟了 NLP embedding 發展的新元代。

在萬物皆 embedding 的信息流時代,embedding 能夠將文本、圖像、視頻、音頻、用戶等多種實體從一種高維稀疏的離散向量表示 ( one-hot representation ) 映射為一種低維稠密的連續語義表示 ( distributed representation ),并使得相似實體的距離更加接近。其可用于衡量不同實體之間的語義相關性,作為深度模型的語義特征或離散特征的預訓練 embedding, 廣泛應用于推薦和搜索等各個業務場景,比如推薦中的召回、排序、去重、多樣性控制等, 搜索中的語義召回、語義相關性匹配、相關搜索、以圖搜劇等。

相比傳統的 embedding 模型, 深度語義表示學習將實體豐富的 side information ( e.g. 多模態信息, 知識圖譜,meta 信息等 ) 和深度模型 ( e.g. Transformer [3],圖卷積網絡?[4]?等?) 進行深度融合,學習同時具有較好泛化性和語義表達性的實體 embedding,為下游各業務模型提供豐富的語義特征,并在一定程度上解決冷啟動問題, 進而成為提升搜索和推薦系統性能的利器。

愛奇藝設計和探索出了這套適用于愛奇藝多種業務場景的深度語義表示學習框架,并在推薦的多個業務線以及搜索中成功上線。在短&小視頻、圖文信息流推薦以及搜索、直播等15個業務中的召回、排序、去重、多樣性、語義匹配、聚類等7種場景,完成多個 AB 實驗和全流量上線,短&小視頻以及圖文推薦場景上,用戶的人均消費時長共提升5分鐘以上,搜索語義相關性準確率相比 baseline 單特征提升6%以上。

02

面臨的挑戰

傳統的 embedding 學習模型主要基于節點序列或基于圖結構隨機游走生成序列構建訓練集,將序列中的每個節點編碼為一個獨立的 ID,然后采用淺層網絡 ( e.g. item2vec [6],node2vec [7]?) 學習節點的 embedding。該類模型只能獲取訓練語料中節點的淺層語義表征,而不能推理新節點的 embedding,無法解決冷啟動問題,泛化性差。將傳統的 embedding 學習模型應用于愛奇藝業務場景中主要面臨以下問題:

1.?Embedding 實體種類及關系多樣性

傳統的 embedding 模型往往將序列中的 item 視為類型相同的節點,節點之間的關系類型較單一。愛奇藝各業務線中的用戶行為數據往往包含多種類型的數據,比如,文本 ( 長短文本,句子&段落&篇章級別 )、圖像、圖文、視頻 ( 比如,長、短、小視頻 )、用戶 ( 比如 up 主、演員、導演、角色 )、圈子 ( 泡泡、文學等社區 )、query 等;不同類型節點之間具有不同的關系,比如用戶行為序列中節點之間的關系包括點擊、收藏、預約、搜索、關注等,在視頻圖譜中節點之間的關系包括執導、編寫、搭檔、參演等。

2.?Side information 豐富

傳統的 embedding 模型往往采用淺層網絡 ( 比如3層 DNN,LSTM 等 ),特征抽取能力較弱;此外將 item 用一個獨立 ID 來表示,并未考慮 item 豐富的 side information 和多模態信息,往往僅能學到 item 的淺層語義表征。而愛奇藝各業務中的 item 具有豐富的多模態信息 ( 比如,文本、圖像、視頻、音頻 ) 和各種 meta 信息 ( 比如視頻類型、題材、演員屬性等 ),如何有效和充分的利用這些豐富的 side information 以及多模態特征的融合,對于更好的理解 item 的深層語義至關重要。

3.?業務場景多樣

Embedding 可用于推薦中的召回、排序、去重、多樣性以及用戶畫像建模等,搜索中的語義召回、排序、視頻聚類、相關搜索等,以及作為各種下游任務的語義特征等多種業務場景。不同的業務場景往往需要不同類型的 embedding。

推薦召回場景:

  • 基于行為的 embedding 模型召回偏熱門,效果較好;

  • 基于內容的 embedding 模型召回偏相關性,對相關推薦場景和新內容冷啟動更有幫助;

  • 基于行為和內容的 embedding 模型介于前兩者之間,能同時保證相關性和效果。

排序場景:

  • 往往使用后兩種 embedding 模型,可基于訓練好的模型和內容實時獲取未知節點的 embedding 特征。

多樣性控制:

  • 基于內容原始表示的 embedding 模型用于去重和多樣性打散效果往往較好。

03

深度語義表示學習

深度語義表示學習在傳統的 embedding 學習模型基礎上,引入節點豐富的 side information ( 多模態信息和自身 meta 信息 ) 以及類型的異構性,并對多模態特征進行有效融合,將淺層模型替換為特征抽取能力更強的深度模型,從而能夠學習節點的深度語義表征。

針對愛奇藝的業務場景和數據特點,我們設計出了一種滿足現有業務場景的深度語義表示學習框架?( 如圖 1所示?),該框架主要包含四層:數據層、特征層、策略層和應用層。

  • 數據層:主要搜集用戶的各種行為數據構建節點序列和圖,構建 embedding 模型訓練數據;

  • 特征層:主要用于各種模態 ( 文本、圖像、音頻、視頻等 ) 特征的抽取和融合,作為深度語義表示模型中輸入的初始語義表征;

  • 策略層:提供豐富的深度語義表示模型及評估方法,以滿足不同的業務場景;

  • 應用層:主要為下游各業務線的各種場景提供 embedding 特征、近鄰以及相關度計算服務。

下面主要從特征層和策略層中的各種深度語義表示模型兩方面進行詳細介紹。

圖 1?深度語義表示學習框架?

04

特征抽取及融合

1. 多模態特征抽取

在自然語言處理 ( NLP ) 領域,預訓練語言模型 ( 比如 BERT [8] ) 能夠充分利用海量無標注語料學習文本潛在的語義信息,刷新了 NLP 領域各個任務的效果。愛奇藝作為中國領先的影音視頻平臺,涵蓋視頻、圖文的搜索、推薦、廣告、智能創作等多種業務場景,除了文本 ( 標題,描述等 ) 外,還需進一步對圖像、視頻和音頻等多種模態信息進行深入理解。借鑒預訓練語言模型的思想,我們嘗試借助大規模無標注的視頻和圖文語料,學習不同粒度文本 ( query、句子、段落、篇章 )、圖像、音頻和視頻的通用預訓練語義表征,為后續深度語義表示模型提供初始語義表征。

文本語義特征:

根據文本長度,可將文本語義特征抽取分為四個等級:

  • 詞級別 ( Token-level ),比如用戶搜索串,通常為2~6個字;

  • 句子級別 ( Sentence-level ),比如視頻&漫畫標題和描述、人物小傳、藝人簡介等;

  • 段落級別 ( Paragraph-level ),比如影視劇描述,劇本片段等;

  • 篇章級別 ( Document-level ),比如劇本、小說等長文本。

受限于現有預訓練語言模型處理長文本的局限性,對于不同級別的文本需要采用不同的方案。一方面,結合主題模型?[10]?和 ALBert [9]?學習 Topic 粒度的語義特征;另一方面,基于 ALBert,利用 WME [11],CPTW [12]?等方法將 token-level 語義組合為段落和篇章級別的細粒度語義特征。

圖像語義特征:

對于視頻封面圖、視頻幀、影視劇照、藝人圖片、漫畫等圖像,基于 State-of-Art 的 ImageNet 預訓練分類模型 ( e.g. EfficientNet [13] ) 抽取基礎語義表示,并采用自監督表示學習思想 ( e.g. Selfish [14] ) 學習更好的圖像表示。

音視頻語義特征:

對于視頻中的音頻信息,利用基于 YouTube-AudioSet 數據上預訓練的 Vggish [15] 模型從音頻波形中提取具有語義的128維特征向量作為音頻表示。對于視頻內容的語義建模,我們選擇一種簡單而高效的業界常用方法,僅利用視頻的關鍵幀序表示視頻內容,并通過融合每個關鍵幀的圖像級別語義特征得到視頻級別的語義特征。

2.?多模態特征融合

融合時機:

主要包含 late fusion,early fusion 和 hybrid fusion。顧名思義,early fusion 是指將多個特征先進行融合 ( e.g. 拼接 ),再通過特征學習模塊進行訓練;late fusion 是指每個特征先通過各自的特征學習模塊變換后再進行融合;hybrid fusion 組合兩種 fusion 時機,可學習豐富的特征交叉,效果通常最好。

融合方式:

高效合理的融合各種多種模態信息,能夠較大程度上提升視頻的語義理解。目前多模態融合方法主要包括三大類方法:

  • 最為直接的方法:通過 element-wise product/sum 或拼接,融合多模態特征,但不能有效的捕捉多模態特征之間的復雜關聯。

  • 基于 pooling 的方法:主要思想是通過 bilinear pooling 的思想進行多種模態特征融合,典型代表作包括 MFB [16] 和 MFH [17] 等。

  • 基于注意力機制的方法: 借鑒 Visual Question Answering ( VQA ) 的思想,注意力機制能夠根據文本表示,讓模型重點關注圖像或視頻中相關的特征部分,捕捉多種模態之間的關聯性,典型代表作有 BAN ( Bilinear Attention Network ) [18] 等。

05

深度語義表示模型

預訓練模型的應用通常分為兩步:

  • 先使用大量無監督語料進行進行預訓練 ( pretraining ),學習通用的語義表示;

  • 再基于該通用語義表示,使用少量標注語料在特定任務上進行微調 ( finetuning )。

類似地,在文本、圖片、音頻、視頻的通用預訓練語義表征基礎上,我們嘗試在特定的任務中 ( 比如召回、語義匹配等 ) 引入視頻豐富的 side information ,以及節點和邊類型異構等特點, 并借助抽取能力更強的深度模型進行微調,以學習滿足不同業務場景的語義特征。根據建模方式可將深度語義表示模型大致分為以下幾類:

1.?基于內容的深度語義模型

基于內容的深度語義模型,顧名思義,模型以單個節點的內容 ( 元數據和多模態信息等 ) 作為輸入,并基于人工標注數據作為監督信號進行訓練,不依賴任何用戶行為數據。該類模型可直接基于節點內容進行推理獲取節點語義表示,無冷啟動問題;但往往需要大量的人工標注數據進行模型訓練。

① 基于 ImageNet 分類的圖像 embedding 模型

該類模型主要是基于 State-of-Art的ImageNet 圖像預訓練分類模型的中間層或最后一層,抽取圖像或視頻的純內容表示,并基于自監督表示學習思想 finetuning,作為圖像或視頻的語義表征,應用于去重 (?圖 2 ) 和推薦 post-rank 階段多樣性控制兩種場景的效果較好。

圖 2?基于 ImageNet 分類模型和自監督學習方法的去重示例

② 基于特定任務的 embedding 模型

該類模型通常基于海量標注數據進行特定任務有監督訓練,并抽取模型中間層或最后一層作為文本或視頻的表征,比如基于標簽分類任務的 embedding 模型 ( 如圖 3所示?),該模型基于視頻元數據、文本、圖像、音頻和視頻特征,在大規模標注數據上訓練,識別視頻的類型標簽和內容標簽。往往抽取模型 fusion 層的表示作為視頻的 topic 粒度語義表征,可有效解決冷啟動問題,廣泛應用于推薦的召回、排序、多樣性控制場景中。

圖 3?基于類型標簽任務的 embedding 模型

2. 基于匹配的深度語義模型

該類模型是一種結合內容和行為的深度語義模型,主要通過融合文本、圖像、視頻和音頻等多模態信息,并基于用戶的點擊、觀看或搜索等共現行為作為監督信號,構建正負樣本對?,訓練模型使得:

其中 e 表示樣本的語義表征,x 表示視頻或用戶等。該類模型缺乏對節點的長距離依賴關系和結構相似性建模;但建模相對簡單,模型訓練后可以直接用于推理,可有效解決冷啟動問題,用于召回和排序場景效果較好。

基于匹配的深度語義模型主要基于 Siamese network ( 孿生網絡或雙塔結構 ) 或多塔結構實現,目前業界較流行的方法包括 DSSM ( Deep Structured Semantic Model ) [5] 和 CDML [20]。DSSM 最初用于搜索建模文本的語義相關性,而 CDML 基于音頻和視頻幀特征,用于建模視頻的語義相關性,并認為 late fusion 方式的多模態特征融合效果較好。對于視頻的語義建模,在 DSSM 文本輸入的基礎上,我們額外引入封面圖和視頻兩個模態的預訓練語義表示,改善視頻語義表征效果。類似地,CDML 還引入文本、封面圖兩種模態的預訓練語義表示,以豐富節點信息;同時針對 CDML 僅采用 late fusion 的特征融合時機,特征交互有限且缺乏多樣性的問題,我們采用 hybrid fusion 融合多種模態特征,學習更為豐富的多模態特征交叉 ( 如圖 4所示 )。

圖 4?基于 hybrid fusion 的 CDML 模型結構

3. 基于序列的深度語義模型

該類模型是一種基于行為的深度語義模型,通過將傳統的淺層網絡 ( e.g. skip-gram,LSTM ) 替換為特征抽取能力更強的深度網絡 ( e.g. Transformer ) 學習節點的深度語義表征。給定用戶的行為序列?,利用 sequential neural network 建模用戶的行為偏好,基于模型的最后一個隱層的表示預測用戶下一個可能點擊的 item。該類模型可用于建模節點的長距離依賴關系,用于推薦場景中的召回效果往往較好,但存在冷啟動問題。

序列建模的方法主要包含三類:

  • 基于 MDPs ( Markov decision Processes ):通過狀態轉移概率計算點擊下一個 item 的概率,當前狀態僅依賴前一個狀態,模型較為簡單,適用于短序列和稀疏數據場景建模;

  • 基于 CNN:利用 CNN 捕獲序列中 item 的短距離依賴關系,比如 Caser [21],易并行化;

  • 基于 RNN:可以捕獲長距離依賴關系,適用于長序列和數據豐富的場景,不過模型更復雜,不易并行化,比如 GRU4Rec [22]。

目前較為流行的序列建模方法主要基于 RNN,為解決 RNN 不易并行和效率較低等問題,我們借鑒業界經驗,采用特征抽取能力更強, 且易并行的 Transformer ( 如圖 5所示 ) 替換 RNN 進行序列建模,典型的工作包括 SASRec [23],Bert4Rec [24]。SASRec 使用單向 Transformer decoder ( 右半部分,N=2 ),基于上文建模下一個 item 的點擊概率;而 Bert4Rec 采用雙向 transformer encoder ( 左半部分,N=2 ),借鑒 BERT 的掩碼思想,基于上下文預測 masked items 的點擊概率。此外,由于 BERT 假設 masked items 之間相互獨立,忽略了 masked items 之間的相關性,我們借鑒 XLNet [25] 的自回歸 ( Auto-regressive ) 思想和排列組合語言模型 ( permutation language model ) 思想,同時建模雙向 context 和 masked item 之間的相關性,提高序列建模效果。

圖 5?Transformer 網絡結構

4. 基于 Graph 的深度語義模型

Graph embedding 模型 ( 又稱為圖嵌入或網絡嵌入 ),可將圖中的節點投影到一個低維連續空間,同時保留網絡結構和固有屬性。深度圖嵌入模型在節點同構圖或異構圖 ( 節點類型或邊類型不同 ) 的基礎上,引入節點豐富的 side information 和多模態特征,并采用特征抽取能力更強的網絡,學習節點的深度語義表征。該類方法建模相比前幾種深度語義模型更加復雜,但可以充分利用豐富的圖結構信息建模節點的高階依賴關系。

① 引入豐富的 side information 和多模態信息

傳統 graph embedding 方法主要基于圖結構和某種節點序列采樣策略生成序列數據,并基于 skip-gram 方式學習節點 embedding,如圖 6所示。典型工作包括 DeepWalk,LINE,Node2vec,三者主要區別在于序列生成的采樣策略不同。傳統 graph embedding 模型將所有節點視為 ID,僅能覆蓋訓練集中的高頻節點,無法獲取新節點的 embedding。

圖 6?傳統 graph embedding 方法基本原理

為解決新節點的冷啟動問題,一方面,可以在傳統圖嵌入模型中引入節點的多種模態信息,另一方面,還可以充分利用節點豐富的 meta 信息 ( 比如類別,上傳者等 )。屬性網絡 ( Attributed ?Network Embedding ) 在圖結構的基礎上,額外引入節點的屬性信息,豐富節點的語義表征,使得具有相似拓撲結構和屬性的節點語義更為接近。對于冷啟動問題,可直接通過節點的屬性 embedding 可獲取新節點 embedding。EGES [26] 和 ANRL [27] 是其中的兩個典型工作。其中,EGES 在 skip-gram 模型的輸入中引入屬性信息。ANRL 將 skip-gram 和 AE 相結合,僅使用屬性特征作為節點表示,并將傳統 AE 中的 decoder 替換為 neighbor enhancement decoder,使節點和其上下文節點 ( 而非其自身 ) 更為相似。EGES 和 ANRL 主要用于屬性信息豐富的電商領域的圖嵌入,但在視頻推薦領域,除少量長視頻 ( 影視劇 )、演員等具有豐富的屬性外,大部分短、小視頻屬性較稀缺,無法直接復用。為解決該問題,我們提出多模態 ANRL,如圖 7 所示,將節點的屬性特征和多種模態 ( 文本、封面圖、視頻 ) 的預訓練語義表示特征一起用于表征節點,作為模型輸入。對新節點,可直接基于訓練好的模型和節點自身內容 ( 即屬性和多模態特征 ) 進行推理獲取, 基于多模態 ANRL embedding 的近鄰示例如圖 8 所示。此外,知識圖譜也可以視為一種豐富的 side information,可以嘗試通過引入外部先驗知識進一步學習更好的深度語義表示。

圖 7?多模態 ANRL 模型結構

圖 8?多模態 ANRL? 近鄰結果示例?( 左邊第一個為種子視頻,其他為近鄰視頻 )

② 更先進的特征抽取器

傳統的圖嵌入模型通常是基于圖生成序列數據,并采用簡單的 skip-gram 模型學習節點 embedding, 模型過于簡單,特征抽取能力較弱,僅能建模局部鄰居信息 ( 通常為一階或二階 )。圖神經網絡 ( GNN,Graph Neural Network ) 或圖卷積網絡 ( GCN,Graph Convolutional Network ) 可以直接基于圖結構和節點的多模態特征,利用特征抽取能力更強的多層圖卷積迭代的對節點的鄰域子圖進行卷積操作,聚合鄰居特征 ( textual、visual 特征等 ),生成節點的深度語義表示。借鑒業界經驗,我們復現了多種 GCN 模型,比如 PinSAGE [28] ( 如圖 9 所示 ),ClusterGCN [29] 等。此外,我們還使用了一個在大規模圖數據上非常快速和可擴展的圖嵌入算法 ProNE [30]。如圖 10 所示,ProNE 先將圖嵌入問題轉換為稀疏矩陣分解問題,高效獲得具有一階鄰居信息的特征向量,作為節點的初始 embedding;然后再通過頻譜傳播,基于頻域上的 filter 對其進行過濾從而融合高階鄰居信息作為最終的節點深度語義表示,可同時將低階和高階鄰居信息融入節點語義表示。更重要的是,可將常見的網絡嵌入算法 ( 比如 Node2vec 等 ) 生成的 embedding 作為 ProNE 中第一步的節點初始 embedding,再進行頻譜傳播,效果平均會提升~10%。

圖 9?PinSAGE 模型結構

圖 10?ProNE 模型結構

③ 建模多元異構圖

現有方法主要基于具有單一類型節點&邊的網絡圖 ( 同構圖 ),但現實世界中大部分圖都包含多種類型的節點和邊,不同類型的節點往往具有不同的屬性和多模態特征。比如,在搜索場景中,最簡單的異構圖是用戶的搜索-點擊二部圖,具有兩種類型的節點:query 和視頻,視頻具有豐富的屬性和多模態特征;而在推薦場景也包含大量異構圖,比如用戶-視頻、視頻-圈子-內容標簽、演員-角色-作品等。

傳統的 graph embedding 算法會忽略圖中邊的類型以及節點的特征,比如 node2vec,metapath2vec,雖然 metapath2vec 可用于異構節點的表示學習,但仍然將節點視為 ID,忽略節點豐富的特征。異構圖 ( HINE,Heterogenous Information Network Embedding ) 深度語義模型同時引入節點的多種模態特征,和圖中節點和邊類型的多樣性,對不同類型的節點和邊分別建模,其中多元是指圖中具有多種類型的邊。

我們首先在搜索場景的語義相關性任務中進行了異構圖深度語義表示學習的初步嘗試。語義相關性在搜索中扮演重要角色,可用于搜索語義召回和語義相關性匹配。為衡量 query 和視頻標題的語義相關性,學習 query 和視頻在同一個空間的深度語義表征,我們基于搜索查詢-點擊異構圖,通過組合 representation-based 和 interaction-based 兩者思想,學習 query 和視頻標題的語義相關性 embedding,模型結構如圖 11 所示, 左邊的 encoder 建模 query 或視頻標題的深度語義表示,用于學習文本的顯示語義相關性;decoder 引入行為相關性約束,用于建模隱式的語義相關性,比如 <query:李菁菁,title:歡天喜地對親家>, ?前者是后者的主要演員之一。右側用于建模 query 和視頻標題之間的多粒度交互語義。相比于 baseline,語義相關性準確率提升6%以上, 表 1給出了部分 query-title 語義相關性例子。除點擊類型外,目前還在嘗試引入收藏、評論、點贊等邊類型,和視頻類型 ( 比如長、短、小視頻, 專輯和播單等 ),以及在視頻側引入封面圖和視頻模態特征,進行更為細致的建模。

圖 11?搜索 query-title 語義相關性 embedding 模型結構

目前也正在將該模型遷移到推薦場景中學習用戶和視頻、圈子以及標簽等之間的同空間語義相關性。此外,最近還引入了阿里在異構圖表示學習方面的工作 GATNE-I [31],支持多源異構網絡的表示學習和以及具有強大特征抽取器的 HGT ( Heterogeneous Graph Transformer ) [32] 網絡,并引入節點的多模態特征,嘗試學習效果更好的節點深度語義表示。? ? ? ?

表 1?搜索 query-title embedding 語義相關性例子

06

后續優化

1. 視頻通用預訓練語義表示

由于時間性能和視頻語義表示預訓練數據缺乏等因素,目前僅簡單的通過融合視頻關鍵幀序的圖像級別特征得到視頻的語義特征。后續將基于大量 video captioning 數據,借鑒 BERT 思想學習視頻預訓練語義模型 ( e.g.UniViLM [35] ) 抽取視頻的深度語義表征。

2. 融入知識圖譜先驗的深度語義表示學習

視頻的文本和描述中往往包含一些實體 ( 比如標題"漫威英雄內戰,鋼鐵俠為隊友量身打造制服,美隊看傻了"中包含實體"漫威、鋼鐵俠" ),通過在文本表征中引入圖譜中的實體,以及實體之間關系等先驗知識 ( "鋼鐵俠"和"復仇者聯盟" ),能夠進一步提升語義表征的效果。后續將嘗試在 NLP 預訓練語言模型和推薦場景中引入知識圖譜,分別用于提升文本語義表征效果 ( 比如 KEPLER [33] ) 和發現用戶深層次用戶興趣,提升推薦的準確性,多樣性和可解釋性 ( e.g. KGCN [34] )。

3. 覆蓋更多的業務

深度語義表示通常用于視頻智能分發場景,目前已經覆蓋愛奇藝的長&短&小視頻、直播、圖文、漫畫等推薦和搜索業務;后續將持續增加愛奇藝智能制作場景的支持,為各種業務場景提供深層次語義特征。?

總結

以上是生活随笔為你收集整理的爱奇艺深度语义表示学习的探索与实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。