當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

杨宏宇：腾讯多模态内容理解技术及应用

發(fā)布時(shí)間：2025/3/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了杨宏宇：腾讯多模态内容理解技术及应用小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

楊宏宇：騰訊多模態(tài)內(nèi)容理解技術(shù)及應(yīng)用

分享嘉賓：楊宇鴻騰訊內(nèi)容理解高級(jí)工程師
編輯整理：吳祺堯
出品平臺(tái)：DataFunTalk

導(dǎo)讀： 搜索內(nèi)容的理解貫穿了整個(gè)搜索系統(tǒng)。我們需要從多個(gè)粒度理解搜索內(nèi)容，包括語義分塊、核心要素提取、頁面渲染等。多模態(tài)內(nèi)容理解技術(shù)在其中扮演了重要角色，它可以從內(nèi)容解析、內(nèi)容質(zhì)量檢驗(yàn)、內(nèi)容關(guān)系的挖掘以及內(nèi)容屬性的提取方面對(duì)候選內(nèi)容進(jìn)行更好的篩選與排序。今天分享的主題是多模態(tài)的內(nèi)容理解技術(shù)在搜索中的應(yīng)用。

今天的介紹會(huì)圍繞下面七點(diǎn)展開：

通用搜索：內(nèi)容理解體系
千億規(guī)模大庫的內(nèi)容排序
細(xì)粒度圖像語義向量的應(yīng)用
多模態(tài)的內(nèi)容質(zhì)量識(shí)別技術(shù)
文檔領(lǐng)域權(quán)威性識(shí)別
多模態(tài)的重復(fù)識(shí)別技術(shù)
未來展望

01 通用搜索：內(nèi)容理解體系

首先和大家分享下在通用搜索的場(chǎng)景下如何做內(nèi)容理解。

1. 內(nèi)容理解體系

從上圖我們可以看到，搜索內(nèi)容理解可以分為兩大塊：內(nèi)容特征 和索引選擇 。我們會(huì)從千億級(jí)別的大庫中進(jìn)行索引選擇，形成一個(gè)去重的優(yōu)質(zhì)庫、地域庫、新聞庫、視頻庫等。從內(nèi)容特征出發(fā)，我們會(huì)分析字粒度、詞粒度等從細(xì)到粗的分粒度建模，為排序模型提供多種特征。

比如，我們?cè)跇?gòu)建內(nèi)容時(shí)會(huì)使用語義表示來甄別相似內(nèi)容，防止重復(fù)索引的建立。因?yàn)槟壳盎ヂ?lián)網(wǎng)上30%的內(nèi)容都是重復(fù)的，我們沒有必要在索引中浪費(fèi)這種內(nèi)存。其次，互聯(lián)網(wǎng)中有20%的內(nèi)容都是低價(jià)值的，我們也不需要對(duì)它們建立索引。那么從內(nèi)容特征上來看，我們會(huì)構(gòu)建標(biāo)題和內(nèi)容的匹配特征以及其他一些特征，建模判別圖文不符或者題文不符的任務(wù)。

針對(duì)內(nèi)容、屬性和標(biāo)簽理解，我們會(huì)在篇章級(jí)別提取內(nèi)容屬性，比如我們可以用新聞屬性構(gòu)建新聞庫，地域?qū)傩詠順?gòu)建地域庫。通過頁面的分類和頁面tag的提取，我們可以將多個(gè)特征輸入召回層和排序?qū)印Ｏ到y(tǒng)整體的目標(biāo)是通過不同的內(nèi)容特征保證優(yōu)質(zhì)內(nèi)容的供給。

我們使用多個(gè)粒度對(duì)內(nèi)容進(jìn)行理解。

首先是頁面級(jí)別 的理解，它包含語義分塊任務(wù)、核心要素提取任務(wù)以及頁面旋繞任務(wù)。除了直接從文本或者h(yuǎn)tml中做內(nèi)容解析與內(nèi)容提取，目前業(yè)界大部分會(huì)采用基于pattern或者基于正則表達(dá)式的方法，但是它們的泛化能力不夠。所以就有人提出了基于視覺的方式做核心要素的提取。在不同頁面上，核心要素的表現(xiàn)形式不一樣，例如在問答頁你需要提取問題，在通用頁你需要提取頁面的閱讀數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)等供排序階段使用。
其次是圖片的理解，主要是判斷圖片的質(zhì)量、多模的語義匹配。我們通過深入理解圖片和語義之間的關(guān)聯(lián)關(guān)系，挖掘不同模態(tài)的互補(bǔ)性。
從篇章級(jí)別 上，我們抽象出了幾個(gè)NLP的任務(wù)，包括內(nèi)容的分級(jí)、問答匹配、文本摘要抽取、文本屬性提取、低于提取等。針對(duì)內(nèi)容質(zhì)量我們有一套詳細(xì)的多維度評(píng)價(jià)方法，整體的目標(biāo)是通過優(yōu)化體驗(yàn)來提升用戶對(duì)內(nèi)容的評(píng)價(jià)。
對(duì)于段落級(jí)別 ，由于多個(gè)段落通常會(huì)包含多種語義，所以我們建立了lda模型去理解每個(gè)段落的主題分布。我們也會(huì)使用序列標(biāo)注模型來尋找文本中段與段之間的切分點(diǎn)。
接下來是句子級(jí)別 的任務(wù)。在句子級(jí)別，我們會(huì)有小語種識(shí)別任務(wù)，因?yàn)樗阉鞯膬?nèi)容來自于全網(wǎng)，會(huì)有一定可能會(huì)爬到如泰語等小語種網(wǎng)站。我們還有語句通順度識(shí)別來判斷內(nèi)容質(zhì)量，對(duì)那些機(jī)器生成的句子或者東拼西湊的內(nèi)容進(jìn)行剔除。文本相似度任務(wù)在搜索中也有相應(yīng)的應(yīng)用場(chǎng)景。比如在內(nèi)容理解中，我們需要提出作弊標(biāo)題，因?yàn)橛行┒温涞姆志渑c標(biāo)題的分句十分相似。
在字級(jí)別 的任務(wù)中，我們會(huì)有錯(cuò)別字檢測(cè)任務(wù)，例如上圖展示的例子中李佳琦的“琦”字就被寫錯(cuò)了。我們可以通過基于BERT的序列標(biāo)注模型進(jìn)行識(shí)別。

2. 圖文理解

接下來我來介紹一下如何細(xì)化圖文理解。首先，圖文理解包含四個(gè)層次。

最底層是內(nèi)容解析

它可以通過結(jié)構(gòu)理解來實(shí)現(xiàn)。其中最典型的是KIE任務(wù)，即關(guān)鍵信息提取。另外，頁面理解可以對(duì)應(yīng)于Document LayoutAnalysis任務(wù)。在結(jié)構(gòu)理解后，我們還需要對(duì)頁面進(jìn)行類型檢測(cè)，比如判斷這是一個(gè)資訊頁，是一個(gè)問答頁，是一個(gè)視頻頁還是一個(gè)論壇頁。最后，我們會(huì)去提取頁面的主體內(nèi)容、名稱、出鏈入鏈等。轉(zhuǎn)評(píng)贊等信息可以在排序冷啟動(dòng)的時(shí)候進(jìn)行使用，比如我們計(jì)算文檔初始化的熱度值。

第二層是內(nèi)容質(zhì)量權(quán)威性的預(yù)估

對(duì)于圖文視頻，我們會(huì)指定不同的質(zhì)量標(biāo)準(zhǔn)來判斷內(nèi)容是優(yōu)質(zhì)文還是口水文，是否包含負(fù)反饋，是否包含軟文，是否有違法內(nèi)容，以及是否是“標(biāo)題黨”。在視頻粒度下還會(huì)有黑白邊識(shí)別、拉伸變形識(shí)別、人臉截?cái)嘧R(shí)別、無營養(yǎng)的識(shí)別等。

再上一層是內(nèi)容匹配層次

我們進(jìn)行圖文匹配。比如標(biāo)題和封面圖、內(nèi)容和封面圖是否是匹配的。此外，我們還可以判斷圖片是否是一個(gè)最優(yōu)封面圖。我們還可以利用內(nèi)容相似性進(jìn)行排序。由于互聯(lián)網(wǎng)上的內(nèi)容會(huì)天然地將相似內(nèi)容聚集在一起，使得排序的結(jié)果同質(zhì)化嚴(yán)重，影響排序效率，進(jìn)而影響NDCG指標(biāo)。所以，我們會(huì)建立text embedding，image embedding以及其他一些淺層特征如圖片的哈希，建立一個(gè)相似度預(yù)估模型。這一模型可以完成原創(chuàng)內(nèi)容識(shí)別、舊文過濾、抄襲搬運(yùn)的識(shí)別、投訴系統(tǒng)等任務(wù)。

最上是內(nèi)容屬性層面

我們會(huì)提取內(nèi)容所屬領(lǐng)域，比如識(shí)別內(nèi)容的新聞屬性、地域?qū)傩浴⒄军c(diǎn)權(quán)威性、站點(diǎn)等級(jí)等。

3. 視頻理解

在視頻理解中，我們也會(huì)多粒度、跨模態(tài)地進(jìn)行內(nèi)容理解。首先我們會(huì)細(xì)化理解粒度，分為關(guān)鍵幀級(jí)、鏡頭級(jí)、場(chǎng)景級(jí)、片段級(jí)。在跨模態(tài)層面可以分為臺(tái)詞搜索、圖搜視頻、劇情搜索、片段切分等。

4. 結(jié)構(gòu)理解

接下來我重點(diǎn)介紹內(nèi)容解析中結(jié)構(gòu)理解的部分。

結(jié)構(gòu)理解主要任務(wù)之一是頁面解析，是一個(gè)非常重要的基礎(chǔ)工作，它的主要目標(biāo)是提取頁面的關(guān)鍵部分，如正文、列表、問答等。常規(guī)的方法有基于模板的提取、基于html的提取以及基于css的提取，然后在后續(xù)處理中進(jìn)行簡單的數(shù)據(jù)清洗。目前比較前沿的方法是以計(jì)算機(jī)視覺模型為基礎(chǔ)進(jìn)行文檔布局的理解。如果我們無法正確提取頁面的文本內(nèi)容，那么只做內(nèi)容理解就會(huì)存在偏差。基于視覺的方法主要是用于模板匹配以及規(guī)則匹配失效的情況。目前有一個(gè)比較新的數(shù)據(jù)集，繼承了約五十萬條數(shù)據(jù)，可以用來訓(xùn)練辨別頁面布局標(biāo)注的模型。微軟最近也發(fā)表了一篇文章，提出了LayoutLM，他們利用文本在頁面布局下的普適性特征訓(xùn)練一個(gè)預(yù)訓(xùn)練模型。針對(duì)文檔這種結(jié)構(gòu)，模型會(huì)將其轉(zhuǎn)化為一個(gè)序列。從上圖左下角我們可以看到，數(shù)據(jù)集由類別C和文檔D組成，模型的任務(wù)是將文檔的token歸類。預(yù)訓(xùn)練模型中會(huì)加入二維的位置嵌入，對(duì)應(yīng)文本候選框的坐標(biāo)。最后的輸出和語言模型相似，會(huì)有一個(gè)CLS向量來表示整體的特征。

結(jié)構(gòu)理解層面我們基于視覺模型做了正文排版美觀度打分。我們使用LSTM+CNN進(jìn)行建模，LSTM負(fù)責(zé)擬合文本序列的特征，使用CNN來提取局部特征。模型最后會(huì)將LSTM得到的特征和CNN得到的特征進(jìn)行拼接，最后對(duì)序列依次進(jìn)行打分。序列打分的維度有段落類型、長度、圖片大小、清晰度、美觀度等。通過這種方式，我們就可以盡量保證線上的內(nèi)容排版質(zhì)量，并且展現(xiàn)的盡可能是優(yōu)質(zhì)內(nèi)容。

02 千億規(guī)模大庫的內(nèi)容排序

下面介紹一下我們?nèi)绾卧谇|規(guī)模的大庫上做內(nèi)容的排序。它屬于多模理解這一層級(jí)，利用內(nèi)容質(zhì)量的權(quán)威性、內(nèi)容關(guān)系以及大規(guī)模索引來篩選優(yōu)質(zhì)內(nèi)容。內(nèi)容排序是通過多粒度、跨模態(tài)地理解全網(wǎng)內(nèi)容，篩選內(nèi)容質(zhì)量優(yōu)質(zhì)、內(nèi)容權(quán)威、高度原創(chuàng)的有價(jià)值的內(nèi)容，并對(duì)它們建立索引。上圖展示了排序的流程圖。排序的目標(biāo)是篩選topN價(jià)值的內(nèi)容，數(shù)量大約在數(shù)百億的量級(jí)，全網(wǎng)候選內(nèi)容則是在數(shù)千億的量級(jí)。

篩選的第一步是接入網(wǎng)頁庫。首先，面對(duì)千億級(jí)別的網(wǎng)頁，我們會(huì)進(jìn)行內(nèi)容前面計(jì)算，包括頁面tag簽名，最長句子簽名等。對(duì)于同簽名的內(nèi)容我們會(huì)保留其中一條，使用的是LTR模型進(jìn)行預(yù)估打分。具體地，我們使用優(yōu)質(zhì)內(nèi)容作為正例，同一簽名下的其他文檔作為負(fù)樣本，優(yōu)化目標(biāo)是整體的Top1準(zhǔn)確率。對(duì)于不同簽名的內(nèi)容，它的優(yōu)化目標(biāo)則由頁面多樣性和查詢滿足性組成，構(gòu)造的數(shù)據(jù)集來源于歷史標(biāo)注數(shù)據(jù)以及點(diǎn)擊日志。我們使用LR模型，它接受的輸入特征有約100維，其中較為重要的特征有page rank特征、user rank特征（后驗(yàn)排名）、site rank特征（整站排名）、站點(diǎn)排名等。這些特征聯(lián)合內(nèi)容質(zhì)量和物理質(zhì)量，使用LR模型對(duì)內(nèi)容進(jìn)行打分。最后我們可以選出排名靠前的數(shù)百億內(nèi)容，按比例放置在不同索引中。例如我們?cè)谒饕倩貢r(shí)會(huì)先去使用VIP索引庫，當(dāng)VIP庫已經(jīng)滿足召回?cái)?shù)量時(shí)就不需要查詢第二個(gè)庫；只有當(dāng)優(yōu)質(zhì)文檔數(shù)量不滿足要求時(shí)才會(huì)進(jìn)一步查詢二級(jí)庫甚至三級(jí)庫，最后是一個(gè)兜底庫。我們從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)，排序過程中剔除的典型頁面時(shí)同質(zhì)化且內(nèi)容權(quán)威性不高的內(nèi)容，以及一些文不對(duì)題的內(nèi)容。針對(duì)文不對(duì)題的問題，我們也有一個(gè)大模型進(jìn)行識(shí)別。

內(nèi)容排序模型會(huì)根據(jù)不同的準(zhǔn)確率需求來制定不同的策略。如果召回要求的準(zhǔn)確率不是很高，例如80%以上，那么我們會(huì)對(duì)結(jié)果做體驗(yàn)評(píng)估。在滿足體驗(yàn)且對(duì)相關(guān)性沒有造成損失的情況下，模型就可以進(jìn)行一次上線。

03 細(xì)粒度圖像語義向量的應(yīng)用

本文地址：楊宇鴻：騰訊多模態(tài)內(nèi)容理解技術(shù)及應(yīng)用
本文版權(quán)歸作者和AIQ共有，歡迎轉(zhuǎn)載，但未經(jīng)作者同意必須保留此段聲明，且在文章頁面明顯位置給出

接下來給大家介紹細(xì)粒度圖像語義向量在搜索中的應(yīng)用。本質(zhì)上來說，它屬于內(nèi)容理解體系中的內(nèi)容關(guān)系層級(jí)。圖像embedding可以用于檢索，包括重復(fù)檢索、實(shí)例檢索和語義檢索。它目前具有幾點(diǎn)挑戰(zhàn)。

首先，圖片庫的規(guī)模比較大，索引量從百萬級(jí)上升至億級(jí)別時(shí)，由于數(shù)據(jù)分布的變化，又因?yàn)榛诳臻g的向量檢索會(huì)對(duì)數(shù)據(jù)分布相當(dāng)敏感，所以embedding的Top1準(zhǔn)確率會(huì)有很明顯的下降，不滿足業(yè)務(wù)需求。

其次，檢索需求是多樣的，我們無法做到embedding的統(tǒng)一，即需要根據(jù)不同的業(yè)務(wù)建立不同的embedding。比如某些圖片是語義相關(guān)的，另一些圖片是風(fēng)格相關(guān)的、局部相關(guān)的或者整體相關(guān)的。所以，我們建立了多標(biāo)簽粒度的圖片語義來滿足圖像風(fēng)格等不同的檢索偏好。

整體系統(tǒng)包含預(yù)處理階段、向量化的索引、召回以及排序。預(yù)處理包括黑邊、拼接圖的裁剪、多樣性的分類等。在線上使用時(shí)，我們會(huì)將embedding進(jìn)行0-1量化來減少內(nèi)存占用，但也會(huì)不可避免地導(dǎo)致表達(dá)embedding能力的下降。所以需要注意的是，我們會(huì)對(duì)成本與性能進(jìn)行權(quán)衡，選擇一個(gè)比較合適的應(yīng)用方式。

圖像的檢索embedding有兩種技術(shù)路線：度量學(xué)習(xí)（即對(duì)比學(xué)習(xí)的方法）和傳統(tǒng)的圖像分類模型。我們的基線模型是基于ImageNet的預(yù)訓(xùn)練模型MobileNet。在對(duì)比學(xué)習(xí)中，我們是可以任意定義數(shù)據(jù)之間的相似標(biāo)準(zhǔn)的。在我們的案例中，訓(xùn)練數(shù)據(jù)中的正例來自于同一個(gè)視頻片段，且這組圖片是片段內(nèi)距離最大的兩幀；負(fù)例則來自于不同片段中距離最小的一組視頻幀。

在使用ImageNet數(shù)據(jù)預(yù)訓(xùn)練了第一版模型后，我們發(fā)現(xiàn)由于ImageNet分類粒度低，會(huì)導(dǎo)致召回結(jié)果中人不區(qū)分男人、女人、老人、小孩，經(jīng)常會(huì)出現(xiàn)男人召回女人，小孩召回成人的情況。此外，由于ImageNet只對(duì)主體進(jìn)行分類，不區(qū)分背景場(chǎng)景，所以導(dǎo)致召回結(jié)果的場(chǎng)景差異很大。

基于上述問題，我們對(duì)模型進(jìn)行了一次迭代。新模型基于Open Image數(shù)據(jù)集，其數(shù)據(jù)數(shù)量在千萬級(jí)，總共包含兩萬多個(gè)標(biāo)簽，所以它與ImageNet相比規(guī)模更大、標(biāo)簽更為豐富，包含了多主體和場(chǎng)景信息。我們還對(duì)損失函數(shù)進(jìn)行了優(yōu)化，引入了非對(duì)稱損失。當(dāng)負(fù)例的輸出概率超過一個(gè)較大的閾值時(shí)，損失函數(shù)的梯度會(huì)隨概率的增大而減小，達(dá)到標(biāo)簽容錯(cuò)的目的。將分類任務(wù)運(yùn)用至檢索任務(wù)時(shí)，我們選擇加入對(duì)比學(xué)習(xí)的方式對(duì)模型進(jìn)行訓(xùn)練，那么整體的損失函數(shù)就包括了分類損失與相似度損失，兼顧分類精度以及檢索任務(wù)中要求的embedding相似度。使用這種方法后得到的召回結(jié)果明顯優(yōu)于上一版的召回，比如從上圖中可以看到多標(biāo)簽分類模型會(huì)在婚禮場(chǎng)景下召回正確的背景圖。

下面介紹有關(guān)圖文匹配的工作。圖文匹配任務(wù)適用于在素材檢索、封面優(yōu)選等應(yīng)用。我們的第一版方案是對(duì)圖片和文字分別進(jìn)行特征提取，然后使用BERT將文字與圖像embedding進(jìn)行對(duì)齊。后面我們使用了VIT替換ResNet，并將訓(xùn)練數(shù)據(jù)集替換為千萬級(jí)中文圖文匹配數(shù)據(jù)集。使用自己構(gòu)建的數(shù)據(jù)集的原因是目前業(yè)內(nèi)還沒有一個(gè)針對(duì)圖文匹配的干凈數(shù)據(jù)集，造成模型匹配效果不甚理想。經(jīng)過改進(jìn)后的模型的匹配準(zhǔn)確率相較于第一版模型有很大的提升。

04 多模態(tài)的內(nèi)容質(zhì)量識(shí)別技術(shù)

現(xiàn)在介紹我們?cè)谒阉髦惺侨绾螒?yīng)用多模態(tài)的內(nèi)容質(zhì)量識(shí)別技術(shù)的。首先，我們需要建模圖文混合排版、圖文信息匹配增益點(diǎn)以及文本內(nèi)容深度。那么針對(duì)圖片模態(tài)，我們使用比較大的RCNN來提取圖像位置與大小信息，提取圖像前景目標(biāo)特征；對(duì)于文本模態(tài)，我們會(huì)提取段落信息并實(shí)現(xiàn)tokenization。

雙模態(tài)聯(lián)合建模使用的是UNITER模型，它的優(yōu)化目標(biāo)是多種損失函數(shù)的組合，包含圖文匹配的matching loss、恢復(fù)圖像像素的masked region loss以及恢復(fù)token的masked token loss。模型的輸入包含圖像與文字模態(tài)。其中文本會(huì)使用段落與標(biāo)題，不同內(nèi)容會(huì)使用[SEP]進(jìn)行分隔，使用token的形式進(jìn)行輸入；圖像則使用ROI特征。最終，圖文匹配的輸出會(huì)使用文本與圖像部分的[CLS]輸出向量進(jìn)行計(jì)算。

在實(shí)驗(yàn)中，我們使用了約7000萬的訓(xùn)練數(shù)據(jù)，包含純文本數(shù)據(jù)、純圖片數(shù)據(jù)以及圖片文本混合數(shù)據(jù)，其中圖文數(shù)據(jù)約有5000萬。從實(shí)驗(yàn)結(jié)果上來看，我們的模型相較于基線在AUC指標(biāo)上有了12%左右的提升。

05 文檔領(lǐng)域權(quán)威性識(shí)別

文檔領(lǐng)域權(quán)威性識(shí)別屬于內(nèi)容理解中的內(nèi)容屬性層級(jí)。我們提出這一任務(wù)的背景是想判斷query和賬號(hào)發(fā)文的領(lǐng)域是否一致。這一任務(wù)有兩大難點(diǎn)。首先，雙塔模型特征交互太晚，無法共享參數(shù)。我們的解決方案是使用多階段訓(xùn)練的方法，首先先對(duì)兩個(gè)塔分別進(jìn)行單獨(dú)的預(yù)訓(xùn)練。具體地，query塔會(huì)使用TextCNN進(jìn)行文本分類任務(wù)的預(yù)訓(xùn)練，而author塔會(huì)使用 Roberta + CNN + Attention 建模文本與作者的特征，對(duì)領(lǐng)域進(jìn)行分類預(yù)訓(xùn)練任務(wù)。在第二階段，我們會(huì)做雙塔聯(lián)合訓(xùn)練進(jìn)行特征融合，目的是為了學(xué)習(xí)匹配向量之間的領(lǐng)域匹配度。

我們?cè)谟?xùn)練中會(huì)借鑒online hard negative mining的方法，將負(fù)樣本設(shè)置為得分與正樣本最相近的幾個(gè)doc，使得數(shù)據(jù)質(zhì)量更加好，進(jìn)而促使模型學(xué)習(xí)到更具區(qū)分度的特征。

06 多模態(tài)的重復(fù)識(shí)別技術(shù)

最后，我來介紹一下搜索場(chǎng)景下的大規(guī)模數(shù)據(jù)重復(fù)識(shí)別技術(shù)。它屬于內(nèi)容理解中的內(nèi)容關(guān)系層級(jí)。我們建立了多種方案來解決大規(guī)模數(shù)據(jù)重復(fù)控制，整體流程包括：重復(fù)組生成、重復(fù)組排序、觸發(fā)退場(chǎng)/入場(chǎng)。當(dāng)特征發(fā)生變更的時(shí)候，我們會(huì)觸發(fā)一次輕量級(jí)特征計(jì)算。如果我們?cè)诿看翁卣髯兓瘯r(shí)都實(shí)時(shí)計(jì)算如圖片向量等重量級(jí)特征并進(jìn)行重排序的話，那么計(jì)算耗時(shí)非常大。具體地，我們的解決方案是一種二階段范式，首先我們實(shí)時(shí)計(jì)算淺層輕量特征，再在第二階段加入重量級(jí)特征進(jìn)行召回，最后使用similarity ranking的方式進(jìn)行排序。

最后我們需要判斷哪些內(nèi)容需要被淘汰。目前線上有30%的內(nèi)容是重復(fù)的，我們的目標(biāo)是控制展現(xiàn)重復(fù)率和索引重復(fù)率。經(jīng)過線上實(shí)驗(yàn)，我們發(fā)現(xiàn)通過這樣一個(gè)二階段范式，系統(tǒng)的性能有了一定程度的提升，同時(shí)存儲(chǔ)成本大大降低。

07 未來展望

從整體上來看，正如2018年圖靈獎(jiǎng)獲得者Yann LeCun所說，深度學(xué)習(xí)的趨勢(shì)是大規(guī)模無監(jiān)督訓(xùn)練，它是“蛋糕”的本質(zhì)，而強(qiáng)化學(xué)習(xí)或者監(jiān)督學(xué)習(xí)只是“蛋糕”表面的一小部分。所以未來我們需要考慮無監(jiān)督學(xué)習(xí)技術(shù)應(yīng)該如何促進(jìn)多模態(tài)場(chǎng)景下不同領(lǐng)域之間的知識(shí)的交互，從而進(jìn)一步提升性能。

08 精彩問答

Q：對(duì)頁面是如何做語義分塊的？

A：首先可以基于css渲染來進(jìn)行分塊。因?yàn)轫撁娼?jīng)過css強(qiáng)渲染后我們是可以得到原生的頁面分塊形式，使用html結(jié)構(gòu)分析就可以拿到文本數(shù)據(jù)。其次，我們還可以使用鏈接密度來衡量分塊的類型，比如鏈接密度較大就有可能是索引列表。通常來說，強(qiáng)渲染的情況下分塊準(zhǔn)確率都比較高。當(dāng)我們想要提取正文主體內(nèi)容時(shí)，采用的是噪聲標(biāo)簽排除法，余下的高密度的主體部分就會(huì)是我們的目標(biāo)內(nèi)容。另外一種比較前沿的方法是基于視覺模型進(jìn)行語義分塊，由于現(xiàn)有技術(shù)是基于傳統(tǒng)的基于規(guī)則或機(jī)器學(xué)習(xí)方法提出的，其中大多數(shù)無法很好地泛化，因?yàn)樗鼈円蕾囉谑止ぶ谱鞯奶卣?#xff0c;可能對(duì)布局變化不穩(wěn)健, Vision 極大地推動(dòng)了基于圖像的方法的文檔布局分析，根據(jù) OCR 獲得的文本邊界框，能獲取文本在文檔中的具體位置，結(jié)合坐標(biāo)轉(zhuǎn)化為虛擬坐標(biāo)之后，融入位置Embedding，將布局分析任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù)。

總結(jié)

以上是生活随笔為你收集整理的杨宏宇：腾讯多模态内容理解技术及应用的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：名侦探柯南剧场版百度云1-23（名侦探柯
下一篇： [2020-CVPR] Dynamic