杨宏宇:腾讯多模态内容理解技术及应用
楊宏宇:騰訊多模態(tài)內(nèi)容理解技術(shù)及應(yīng)用
分享嘉賓:楊宇鴻 騰訊 內(nèi)容理解高級(jí)工程師
編輯整理:吳祺堯
出品平臺(tái):DataFunTalk
導(dǎo)讀: 搜索內(nèi)容的理解貫穿了整個(gè)搜索系統(tǒng)。我們需要從多個(gè)粒度理解搜索內(nèi)容,包括語義分塊、核心要素提取、頁面渲染等。多模態(tài)內(nèi)容理解技術(shù)在其中扮演了重要角色,它可以從內(nèi)容解析、內(nèi)容質(zhì)量檢驗(yàn)、內(nèi)容關(guān)系的挖掘以及內(nèi)容屬性的提取方面對(duì)候選內(nèi)容進(jìn)行更好的篩選與排序。今天分享的主題是多模態(tài)的內(nèi)容理解技術(shù)在搜索中的應(yīng)用。
今天的介紹會(huì)圍繞下面七點(diǎn)展開:
- 通用搜索:內(nèi)容理解體系
- 千億規(guī)模大庫的內(nèi)容排序
- 細(xì)粒度圖像語義向量的應(yīng)用
- 多模態(tài)的內(nèi)容質(zhì)量識(shí)別技術(shù)
- 文檔領(lǐng)域權(quán)威性識(shí)別
- 多模態(tài)的重復(fù)識(shí)別技術(shù)
- 未來展望
01 通用搜索:內(nèi)容理解體系
首先和大家分享下在通用搜索的場(chǎng)景下如何做內(nèi)容理解。
1. 內(nèi)容理解體系
從上圖我們可以看到,搜索內(nèi)容理解可以分為兩大塊:內(nèi)容特征 和索引選擇 。我們會(huì)從千億級(jí)別的大庫中進(jìn)行索引選擇,形成一個(gè)去重的優(yōu)質(zhì)庫、地域庫、新聞庫、視頻庫等。從內(nèi)容特征出發(fā),我們會(huì)分析字粒度、詞粒度等從細(xì)到粗的分粒度建模,為排序模型提供多種特征。
比如,我們?cè)跇?gòu)建內(nèi)容時(shí)會(huì)使用語義表示來甄別相似內(nèi)容,防止重復(fù)索引的建立。因?yàn)槟壳盎ヂ?lián)網(wǎng)上30%的內(nèi)容都是重復(fù)的,我們沒有必要在索引中浪費(fèi)這種內(nèi)存。其次,互聯(lián)網(wǎng)中有20%的內(nèi)容都是低價(jià)值的,我們也不需要對(duì)它們建立索引。那么從內(nèi)容特征上來看,我們會(huì)構(gòu)建標(biāo)題和內(nèi)容的匹配特征以及其他一些特征,建模判別圖文不符或者題文不符的任務(wù)。
針對(duì)內(nèi)容、屬性和標(biāo)簽理解,我們會(huì)在篇章級(jí)別提取內(nèi)容屬性,比如我們可以用新聞屬性構(gòu)建新聞庫,地域?qū)傩詠順?gòu)建地域庫。通過頁面的分類和頁面tag的提取,我們可以將多個(gè)特征輸入召回層和排序?qū)印O到y(tǒng)整體的目標(biāo)是通過不同的內(nèi)容特征保證優(yōu)質(zhì)內(nèi)容的供給。
我們使用多個(gè)粒度對(duì)內(nèi)容進(jìn)行理解。
- 首先是頁面級(jí)別 的理解,它包含語義分塊任務(wù)、核心要素提取任務(wù)以及頁面旋繞任務(wù)。除了直接從文本或者h(yuǎn)tml中做內(nèi)容解析與內(nèi)容提取,目前業(yè)界大部分會(huì)采用基于pattern或者基于正則表達(dá)式的方法,但是它們的泛化能力不夠。所以就有人提出了基于視覺的方式做核心要素的提取。在不同頁面上,核心要素的表現(xiàn)形式不一樣,例如在問答頁你需要提取問題,在通用頁你需要提取頁面的閱讀數(shù)、點(diǎn)贊數(shù)、評(píng)論數(shù)等供排序階段使用。
- 其次是圖片 的理解,主要是判斷圖片的質(zhì)量、多模的語義匹配。我們通過深入理解圖片和語義之間的關(guān)聯(lián)關(guān)系,挖掘不同模態(tài)的互補(bǔ)性。
- 從篇章級(jí)別 上,我們抽象出了幾個(gè)NLP的任務(wù),包括內(nèi)容的分級(jí)、問答匹配、文本摘要抽取、文本屬性提取、低于提取等。針對(duì)內(nèi)容質(zhì)量我們有一套詳細(xì)的多維度評(píng)價(jià)方法,整體的目標(biāo)是通過優(yōu)化體驗(yàn)來提升用戶對(duì)內(nèi)容的評(píng)價(jià)。
- 對(duì)于段落級(jí)別 ,由于多個(gè)段落通常會(huì)包含多種語義,所以我們建立了lda模型去理解每個(gè)段落的主題分布。我們也會(huì)使用序列標(biāo)注模型來尋找文本中段與段之間的切分點(diǎn)。
- 接下來是句子級(jí)別 的任務(wù)。在句子級(jí)別,我們會(huì)有小語種識(shí)別任務(wù),因?yàn)樗阉鞯膬?nèi)容來自于全網(wǎng),會(huì)有一定可能會(huì)爬到如泰語等小語種網(wǎng)站。我們還有語句通順度識(shí)別來判斷內(nèi)容質(zhì)量,對(duì)那些機(jī)器生成的句子或者東拼西湊的內(nèi)容進(jìn)行剔除。文本相似度任務(wù)在搜索中也有相應(yīng)的應(yīng)用場(chǎng)景。比如在內(nèi)容理解中,我們需要提出作弊標(biāo)題,因?yàn)橛行┒温涞姆志渑c標(biāo)題的分句十分相似。
- 在字級(jí)別 的任務(wù)中,我們會(huì)有錯(cuò)別字檢測(cè)任務(wù),例如上圖展示的例子中李佳琦的“琦”字就被寫錯(cuò)了。我們可以通過基于BERT的序列標(biāo)注模型進(jìn)行識(shí)別。
2. 圖文理解
接下來我來介紹一下如何細(xì)化圖文理解。首先,圖文理解包含四個(gè)層次。
- 最底層是內(nèi)容解析
它可以通過結(jié)構(gòu)理解來實(shí)現(xiàn)。其中最典型的是KIE任務(wù),即關(guān)鍵信息提取。另外,頁面理解可以對(duì)應(yīng)于Document LayoutAnalysis任務(wù)。在結(jié)構(gòu)理解后,我們還需要對(duì)頁面進(jìn)行類型檢測(cè),比如判斷這是一個(gè)資訊頁,是一個(gè)問答頁,是一個(gè)視頻頁還是一個(gè)論壇頁。最后,我們會(huì)去提取頁面的主體內(nèi)容、名稱、出鏈入鏈等。轉(zhuǎn)評(píng)贊等信息可以在排序冷啟動(dòng)的時(shí)候進(jìn)行使用,比如我們計(jì)算文檔初始化的熱度值。
- 第二層是內(nèi)容質(zhì)量權(quán)威性的預(yù)估
對(duì)于圖文視頻,我們會(huì)指定不同的質(zhì)量標(biāo)準(zhǔn)來判斷內(nèi)容是優(yōu)質(zhì)文還是口水文,是否包含負(fù)反饋,是否包含軟文,是否有違法內(nèi)容,以及是否是“標(biāo)題黨”。在視頻粒度下還會(huì)有黑白邊識(shí)別、拉伸變形識(shí)別、人臉截?cái)嘧R(shí)別、無營養(yǎng)的識(shí)別等。
- 再上一層是內(nèi)容匹配層次
我們進(jìn)行圖文匹配。比如標(biāo)題和封面圖、內(nèi)容和封面圖是否是匹配的。此外,我們還可以判斷圖片是否是一個(gè)最優(yōu)封面圖。我們還可以利用內(nèi)容相似性進(jìn)行排序。由于互聯(lián)網(wǎng)上的內(nèi)容會(huì)天然地將相似內(nèi)容聚集在一起,使得排序的結(jié)果同質(zhì)化嚴(yán)重,影響排序效率,進(jìn)而影響NDCG指標(biāo)。所以,我們會(huì)建立text embedding,image embedding以及其他一些淺層特征如圖片的哈希,建立一個(gè)相似度預(yù)估模型。這一模型可以完成原創(chuàng)內(nèi)容識(shí)別、舊文過濾、抄襲搬運(yùn)的識(shí)別、投訴系統(tǒng)等任務(wù)。
- 最上是內(nèi)容屬性層面
我們會(huì)提取內(nèi)容所屬領(lǐng)域,比如識(shí)別內(nèi)容的新聞屬性、地域?qū)傩浴⒄军c(diǎn)權(quán)威性、站點(diǎn)等級(jí)等。
3. 視頻理解
在視頻理解中,我們也會(huì)多粒度、跨模態(tài)地進(jìn)行內(nèi)容理解。首先我們會(huì)細(xì)化理解粒度,分為關(guān)鍵幀級(jí)、鏡頭級(jí)、場(chǎng)景級(jí)、片段級(jí)。在跨模態(tài)層面可以分為臺(tái)詞搜索、圖搜視頻、劇情搜索、片段切分等。
4. 結(jié)構(gòu)理解
接下來我重點(diǎn)介紹內(nèi)容解析中結(jié)構(gòu)理解的部分。
結(jié)構(gòu)理解主要任務(wù)之一是頁面解析,是一個(gè)非常重要的基礎(chǔ)工作,它的主要目標(biāo)是提取頁面的關(guān)鍵部分,如正文、列表、問答等。常規(guī)的方法有基于模板的提取、基于html的提取以及基于css的提取,然后在后續(xù)處理中進(jìn)行簡單的數(shù)據(jù)清洗。目前比較前沿的方法是以計(jì)算機(jī)視覺模型為基礎(chǔ)進(jìn)行文檔布局的理解。如果我們無法正確提取頁面的文本內(nèi)容,那么只做內(nèi)容理解就會(huì)存在偏差。基于視覺的方法主要是用于模板匹配以及規(guī)則匹配失效的情況。目前有一個(gè)比較新的數(shù)據(jù)集,繼承了約五十萬條數(shù)據(jù),可以用來訓(xùn)練辨別頁面布局標(biāo)注的模型。微軟最近也發(fā)表了一篇文章,提出了LayoutLM,他們利用文本在頁面布局下的普適性特征訓(xùn)練一個(gè)預(yù)訓(xùn)練模型。針對(duì)文檔這種結(jié)構(gòu),模型會(huì)將其轉(zhuǎn)化為一個(gè)序列。從上圖左下角我們可以看到,數(shù)據(jù)集由類別C和文檔D組成,模型的任務(wù)是將文檔的token歸類。預(yù)訓(xùn)練模型中會(huì)加入二維的位置嵌入,對(duì)應(yīng)文本候選框的坐標(biāo)。最后的輸出和語言模型相似,會(huì)有一個(gè)CLS向量來表示整體的特征。
結(jié)構(gòu)理解層面我們基于視覺模型做了正文排版美觀度打分。我們使用LSTM+CNN進(jìn)行建模,LSTM負(fù)責(zé)擬合文本序列的特征,使用CNN來提取局部特征。模型最后會(huì)將LSTM得到的特征和CNN得到的特征進(jìn)行拼接,最后對(duì)序列依次進(jìn)行打分。序列打分的維度有段落類型、長度、圖片大小、清晰度、美觀度等。通過這種方式,我們就可以盡量保證線上的內(nèi)容排版質(zhì)量,并且展現(xiàn)的盡可能是優(yōu)質(zhì)內(nèi)容。
02 千億規(guī)模大庫的內(nèi)容排序
下面介紹一下我們?nèi)绾卧谇|規(guī)模的大庫上做內(nèi)容的排序。它屬于多模理解這一層級(jí),利用內(nèi)容質(zhì)量的權(quán)威性、內(nèi)容關(guān)系以及大規(guī)模索引來篩選優(yōu)質(zhì)內(nèi)容。內(nèi)容排序是通過多粒度、跨模態(tài)地理解全網(wǎng)內(nèi)容,篩選內(nèi)容質(zhì)量優(yōu)質(zhì)、內(nèi)容權(quán)威、高度原創(chuàng)的有價(jià)值的內(nèi)容,并對(duì)它們建立索引。上圖展示了排序的流程圖。排序的目標(biāo)是篩選topN價(jià)值的內(nèi)容,數(shù)量大約在數(shù)百億的量級(jí),全網(wǎng)候選內(nèi)容則是在數(shù)千億的量級(jí)。
篩選的第一步是接入網(wǎng)頁庫。首先,面對(duì)千億級(jí)別的網(wǎng)頁,我們會(huì)進(jìn)行內(nèi)容前面計(jì)算,包括頁面tag簽名,最長句子簽名等。對(duì)于同簽名的內(nèi)容我們會(huì)保留其中一條,使用的是LTR模型進(jìn)行預(yù)估打分。具體地,我們使用優(yōu)質(zhì)內(nèi)容作為正例,同一簽名下的其他文檔作為負(fù)樣本,優(yōu)化目標(biāo)是整體的Top1準(zhǔn)確率。對(duì)于不同簽名的內(nèi)容,它的優(yōu)化目標(biāo)則由頁面多樣性和查詢滿足性組成,構(gòu)造的數(shù)據(jù)集來源于歷史標(biāo)注數(shù)據(jù)以及點(diǎn)擊日志。我們使用LR模型,它接受的輸入特征有約100維,其中較為重要的特征有page rank特征、user rank特征(后驗(yàn)排名)、site rank特征(整站排名)、站點(diǎn)排名等。這些特征聯(lián)合內(nèi)容質(zhì)量和物理質(zhì)量,使用LR模型對(duì)內(nèi)容進(jìn)行打分。最后我們可以選出排名靠前的數(shù)百億內(nèi)容,按比例放置在不同索引中。例如我們?cè)谒饕倩貢r(shí)會(huì)先去使用VIP索引庫,當(dāng)VIP庫已經(jīng)滿足召回?cái)?shù)量時(shí)就不需要查詢第二個(gè)庫;只有當(dāng)優(yōu)質(zhì)文檔數(shù)量不滿足要求時(shí)才會(huì)進(jìn)一步查詢二級(jí)庫甚至三級(jí)庫,最后是一個(gè)兜底庫。我們從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn),排序過程中剔除的典型頁面時(shí)同質(zhì)化且內(nèi)容權(quán)威性不高的內(nèi)容,以及一些文不對(duì)題的內(nèi)容。針對(duì)文不對(duì)題的問題,我們也有一個(gè)大模型進(jìn)行識(shí)別。
內(nèi)容排序模型會(huì)根據(jù)不同的準(zhǔn)確率需求來制定不同的策略。如果召回要求的準(zhǔn)確率不是很高,例如80%以上,那么我們會(huì)對(duì)結(jié)果做體驗(yàn)評(píng)估。在滿足體驗(yàn)且對(duì)相關(guān)性沒有造成損失的情況下,模型就可以進(jìn)行一次上線。
03 細(xì)粒度圖像語義向量的應(yīng)用
- 本文地址:楊宇鴻:騰訊多模態(tài)內(nèi)容理解技術(shù)及應(yīng)用
- 本文版權(quán)歸作者和AIQ共有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁面明顯位置給出
接下來給大家介紹細(xì)粒度圖像語義向量在搜索中的應(yīng)用。本質(zhì)上來說,它屬于內(nèi)容理解體系中的內(nèi)容關(guān)系層級(jí)。圖像embedding可以用于檢索,包括重復(fù)檢索、實(shí)例檢索和語義檢索。它目前具有幾點(diǎn)挑戰(zhàn)。
首先,圖片庫的規(guī)模比較大,索引量從百萬級(jí)上升至億級(jí)別時(shí),由于數(shù)據(jù)分布的變化,又因?yàn)榛诳臻g的向量檢索會(huì)對(duì)數(shù)據(jù)分布相當(dāng)敏感,所以embedding的Top1準(zhǔn)確率會(huì)有很明顯的下降,不滿足業(yè)務(wù)需求。
其次,檢索需求是多樣的,我們無法做到embedding的統(tǒng)一,即需要根據(jù)不同的業(yè)務(wù)建立不同的embedding。比如某些圖片是語義相關(guān)的,另一些圖片是風(fēng)格相關(guān)的、局部相關(guān)的或者整體相關(guān)的。所以,我們建立了多標(biāo)簽粒度的圖片語義來滿足圖像風(fēng)格等不同的檢索偏好。
整體系統(tǒng)包含預(yù)處理階段、向量化的索引、召回以及排序。預(yù)處理包括黑邊、拼接圖的裁剪、多樣性的分類等。在線上使用時(shí),我們會(huì)將embedding進(jìn)行0-1量化來減少內(nèi)存占用,但也會(huì)不可避免地導(dǎo)致表達(dá)embedding能力的下降。所以需要注意的是,我們會(huì)對(duì)成本與性能進(jìn)行權(quán)衡,選擇一個(gè)比較合適的應(yīng)用方式。
圖像的檢索embedding有兩種技術(shù)路線:度量學(xué)習(xí)(即對(duì)比學(xué)習(xí)的方法)和傳統(tǒng)的圖像分類模型。我們的基線模型是基于ImageNet的預(yù)訓(xùn)練模型MobileNet。在對(duì)比學(xué)習(xí)中,我們是可以任意定義數(shù)據(jù)之間的相似標(biāo)準(zhǔn)的。在我們的案例中,訓(xùn)練數(shù)據(jù)中的正例來自于同一個(gè)視頻片段,且這組圖片是片段內(nèi)距離最大的兩幀;負(fù)例則來自于不同片段中距離最小的一組視頻幀。
在使用ImageNet數(shù)據(jù)預(yù)訓(xùn)練了第一版模型后,我們發(fā)現(xiàn)由于ImageNet分類粒度低,會(huì)導(dǎo)致召回結(jié)果中人不區(qū)分男人、女人、老人、小孩,經(jīng)常會(huì)出現(xiàn)男人召回女人,小孩召回成人的情況。此外,由于ImageNet只對(duì)主體進(jìn)行分類,不區(qū)分背景場(chǎng)景,所以導(dǎo)致召回結(jié)果的場(chǎng)景差異很大。
基于上述問題,我們對(duì)模型進(jìn)行了一次迭代。新模型基于Open Image數(shù)據(jù)集,其數(shù)據(jù)數(shù)量在千萬級(jí),總共包含兩萬多個(gè)標(biāo)簽,所以它與ImageNet相比規(guī)模更大、標(biāo)簽更為豐富,包含了多主體和場(chǎng)景信息。我們還對(duì)損失函數(shù)進(jìn)行了優(yōu)化,引入了非對(duì)稱損失。當(dāng)負(fù)例的輸出概率超過一個(gè)較大的閾值時(shí),損失函數(shù)的梯度會(huì)隨概率的增大而減小,達(dá)到標(biāo)簽容錯(cuò)的目的。將分類任務(wù)運(yùn)用至檢索任務(wù)時(shí),我們選擇加入對(duì)比學(xué)習(xí)的方式對(duì)模型進(jìn)行訓(xùn)練,那么整體的損失函數(shù)就包括了分類損失與相似度損失,兼顧分類精度以及檢索任務(wù)中要求的embedding相似度。使用這種方法后得到的召回結(jié)果明顯優(yōu)于上一版的召回,比如從上圖中可以看到多標(biāo)簽分類模型會(huì)在婚禮場(chǎng)景下召回正確的背景圖。
下面介紹有關(guān)圖文匹配的工作。圖文匹配任務(wù)適用于在素材檢索、封面優(yōu)選等應(yīng)用。我們的第一版方案是對(duì)圖片和文字分別進(jìn)行特征提取,然后使用BERT將文字與圖像embedding進(jìn)行對(duì)齊。后面我們使用了VIT替換ResNet,并將訓(xùn)練數(shù)據(jù)集替換為千萬級(jí)中文圖文匹配數(shù)據(jù)集。使用自己構(gòu)建的數(shù)據(jù)集的原因是目前業(yè)內(nèi)還沒有一個(gè)針對(duì)圖文匹配的干凈數(shù)據(jù)集,造成模型匹配效果不甚理想。經(jīng)過改進(jìn)后的模型的匹配準(zhǔn)確率相較于第一版模型有很大的提升。
04 多模態(tài)的內(nèi)容質(zhì)量識(shí)別技術(shù)
現(xiàn)在介紹我們?cè)谒阉髦惺侨绾螒?yīng)用多模態(tài)的內(nèi)容質(zhì)量識(shí)別技術(shù)的。首先,我們需要建模圖文混合排版、圖文信息匹配增益點(diǎn)以及文本內(nèi)容深度。那么針對(duì)圖片模態(tài),我們使用比較大的RCNN來提取圖像位置與大小信息,提取圖像前景目標(biāo)特征;對(duì)于文本模態(tài),我們會(huì)提取段落信息并實(shí)現(xiàn)tokenization。
雙模態(tài)聯(lián)合建模使用的是UNITER模型,它的優(yōu)化目標(biāo)是多種損失函數(shù)的組合,包含圖文匹配的matching loss、恢復(fù)圖像像素的masked region loss以及恢復(fù)token的masked token loss。模型的輸入包含圖像與文字模態(tài)。其中文本會(huì)使用段落與標(biāo)題,不同內(nèi)容會(huì)使用[SEP]進(jìn)行分隔,使用token的形式進(jìn)行輸入;圖像則使用ROI特征。最終,圖文匹配的輸出會(huì)使用文本與圖像部分的[CLS]輸出向量進(jìn)行計(jì)算。
在實(shí)驗(yàn)中,我們使用了約7000萬的訓(xùn)練數(shù)據(jù),包含純文本數(shù)據(jù)、純圖片數(shù)據(jù)以及圖片文本混合數(shù)據(jù),其中圖文數(shù)據(jù)約有5000萬。從實(shí)驗(yàn)結(jié)果上來看,我們的模型相較于基線在AUC指標(biāo)上有了12%左右的提升。
05 文檔領(lǐng)域權(quán)威性識(shí)別
文檔領(lǐng)域權(quán)威性識(shí)別屬于內(nèi)容理解中的內(nèi)容屬性層級(jí)。我們提出這一任務(wù)的背景是想判斷query和賬號(hào)發(fā)文的領(lǐng)域是否一致。這一任務(wù)有兩大難點(diǎn)。首先,雙塔模型特征交互太晚,無法共享參數(shù)。我們的解決方案是使用多階段訓(xùn)練的方法,首先先對(duì)兩個(gè)塔分別進(jìn)行單獨(dú)的預(yù)訓(xùn)練。具體地,query塔會(huì)使用TextCNN進(jìn)行文本分類任務(wù)的預(yù)訓(xùn)練,而author塔會(huì)使用 Roberta + CNN + Attention 建模文本與作者的特征,對(duì)領(lǐng)域進(jìn)行分類預(yù)訓(xùn)練任務(wù)。在第二階段,我們會(huì)做雙塔聯(lián)合訓(xùn)練進(jìn)行特征融合,目的是為了學(xué)習(xí)匹配向量之間的領(lǐng)域匹配度。
我們?cè)谟?xùn)練中會(huì)借鑒online hard negative mining的方法,將負(fù)樣本設(shè)置為得分與正樣本最相近的幾個(gè)doc,使得數(shù)據(jù)質(zhì)量更加好,進(jìn)而促使模型學(xué)習(xí)到更具區(qū)分度的特征。
06 多模態(tài)的重復(fù)識(shí)別技術(shù)
最后,我來介紹一下搜索場(chǎng)景下的大規(guī)模數(shù)據(jù)重復(fù)識(shí)別技術(shù)。它屬于內(nèi)容理解中的內(nèi)容關(guān)系層級(jí)。我們建立了多種方案來解決大規(guī)模數(shù)據(jù)重復(fù)控制,整體流程包括:重復(fù)組生成、重復(fù)組排序、觸發(fā)退場(chǎng)/入場(chǎng)。當(dāng)特征發(fā)生變更的時(shí)候,我們會(huì)觸發(fā)一次輕量級(jí)特征計(jì)算。如果我們?cè)诿看翁卣髯兓瘯r(shí)都實(shí)時(shí)計(jì)算如圖片向量等重量級(jí)特征并進(jìn)行重排序的話,那么計(jì)算耗時(shí)非常大。具體地,我們的解決方案是一種二階段范式,首先我們實(shí)時(shí)計(jì)算淺層輕量特征,再在第二階段加入重量級(jí)特征進(jìn)行召回,最后使用similarity ranking的方式進(jìn)行排序。
最后我們需要判斷哪些內(nèi)容需要被淘汰。目前線上有30%的內(nèi)容是重復(fù)的,我們的目標(biāo)是控制展現(xiàn)重復(fù)率和索引重復(fù)率。經(jīng)過線上實(shí)驗(yàn),我們發(fā)現(xiàn)通過這樣一個(gè)二階段范式,系統(tǒng)的性能有了一定程度的提升,同時(shí)存儲(chǔ)成本大大降低。
07 未來展望
從整體上來看,正如2018年圖靈獎(jiǎng)獲得者Yann LeCun所說,深度學(xué)習(xí)的趨勢(shì)是大規(guī)模無監(jiān)督訓(xùn)練,它是“蛋糕”的本質(zhì),而強(qiáng)化學(xué)習(xí)或者監(jiān)督學(xué)習(xí)只是“蛋糕”表面的一小部分。所以未來我們需要考慮無監(jiān)督學(xué)習(xí)技術(shù)應(yīng)該如何促進(jìn)多模態(tài)場(chǎng)景下不同領(lǐng)域之間的知識(shí)的交互,從而進(jìn)一步提升性能。
08 精彩問答
Q:對(duì)頁面是如何做語義分塊的?
A:首先可以基于css渲染來進(jìn)行分塊。因?yàn)轫撁娼?jīng)過css強(qiáng)渲染后我們是可以得到原生的頁面分塊形式,使用html結(jié)構(gòu)分析就可以拿到文本數(shù)據(jù)。其次,我們還可以使用鏈接密度來衡量分塊的類型,比如鏈接密度較大就有可能是索引列表。通常來說,強(qiáng)渲染的情況下分塊準(zhǔn)確率都比較高。當(dāng)我們想要提取正文主體內(nèi)容時(shí),采用的是噪聲標(biāo)簽排除法,余下的高密度的主體部分就會(huì)是我們的目標(biāo)內(nèi)容。另外一種比較前沿的方法是基于視覺模型進(jìn)行語義分塊,由于現(xiàn)有技術(shù)是基于傳統(tǒng)的基于規(guī)則或機(jī)器學(xué)習(xí)方法提出的,其中大多數(shù)無法很好地泛化,因?yàn)樗鼈円蕾囉谑止ぶ谱鞯奶卣?#xff0c;可能對(duì)布局變化不穩(wěn)健, Vision 極大地推動(dòng)了基于圖像的方法的文檔布局分析,根據(jù) OCR 獲得的文本邊界框,能獲取文本在文檔中的具體位置,結(jié)合坐標(biāo)轉(zhuǎn)化為虛擬坐標(biāo)之后,融入位置Embedding,將布局分析任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù)。
總結(jié)
以上是生活随笔為你收集整理的杨宏宇:腾讯多模态内容理解技术及应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 名侦探柯南剧场版百度云1-23(名侦探柯
- 下一篇: [2020-CVPR] Dynamic