论文翻译1-----DSSM:Deep Structured Semantic Models
說明:
- 論文全部名稱:Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
- 論文中文全稱:使用點擊數據學習用于web搜索的深度結構化語義模型
- 論文下載地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf
- 檢查了好幾遍,原論文中沒有公式2,所以大家不要奇怪
摘要
潛在語義模型,比如LSA,打算在基于關鍵詞匹配經常失敗的語義級別上將查詢映射到其相關的文檔。在該研究中,我們努力開發了一系列基于深層結構的新的潛在語義模型,該模型將queries和documents映射到一個公共的低維空間中,在該低維空間中,被給定的query和一個document的相關性是很容易通過它們之間的距離計算得到。本文提出的深度結構語義模型通過使用點擊數據最大化給定query的情況下被點擊的文檔的條件似然估計進行判別訓練。為了使我們的模型可被應用在大規模網頁搜索中,我們使用了word hashing技術,它能有效地擴展我們的潛在模型以處理這類任務中常見的大規模詞匯庫。在網頁文檔排序任務中,新模型通過使用真實世界的數據集來進行評估。結果表明,我們最佳模型明顯優于其他潛在語義模型,后者在本文提出之前被認為是性能方面的最佳技術。
關鍵詞:深度學習,潛在模型,點擊數據,網頁搜索
1. 介紹
現代搜索引擎主要通過將documents中的關鍵詞和搜索queries中的關鍵詞進行匹配來檢索web文檔。然而,詞匯匹配可能不準確,因為在documents和queries中經常使用不用的詞匯和語言風格來表達概念。
潛在語義模型,比如潛在語義分析(LSA)有能力在詞匯匹配經常失敗的語義級別上將查詢映射到其相關的文檔([6] [15] [2] [8] [21])。這些潛在語義模型通過將在相似上下文中出現的不同名詞(terms)歸為同一語義簇來解決web文檔和搜索查詢中的語言差異問題。因此,在低維空間中被表示為兩個向量的查詢和文檔,即使它們沒有一個相同的名詞,仍然會有很高的相似值。由LSA模型衍生得到的概率主題模型,如PLSA和潛在狄利克雷分布(LDA),也被提出用來做語義匹配。然而,這些模型經常使用目標函數以無監督方式進行訓練,目標函數對檢索任務使用評估度量是很不嚴謹的。因此,在web搜索任務中這些模型的效果沒有最初預期的好。
最近, 已經進行了兩方面的研究來擴展上述潛在語義模型,下面將對其進行簡要回顧。
首先,點擊數據是由queries及其點擊的documents來組成。被用來語義建模以消除搜索queries和web文檔之間的差異[9] [10]。例如,Gao等人在[10]中提出使用雙語主題模型(BLTMs)和線性判別映射模型(DPMs)在語義級別上進行query-document匹配。這些模型在點擊數據上使用適合文檔排序任務的目標進行訓練。更具體地,BLTM是一個生成式模型,該模型要求query和它的點擊documents不僅在主題上共享相同的分布,而且包含分配給每個主題的相似詞組。相反,DPM是使用S2Net算法[26]來學習的,該算法遵循[3]中的學習-排序這種范式。在將queries和documents的term向量映射到低維語義空間的概念向量之后,query和它被點擊的document之間的概念向量的距離比query和它沒有被點擊的document之間的距離小。Gao等人在[10]中表示在文檔排序任務中,BLTM和DPM的效果優于無監督潛在語義模型(包括LSA、PLSA)。但是,盡管通過使用的點擊數據來訓練BLTM,但它的目的是最大化對數極大似然,這對于文檔排序任務中的評估指標而言不是最優的。另一方面,DPM的訓練涉及大規模的矩陣乘法。這些矩陣大小通常會隨著詞匯量的增加而迅速增長,在web搜索任務中,這可能是百萬級別的量。為了使訓練時間可以接受,對詞匯進行大幅度修剪。盡管詞匯量少,使得模型易于訓練,但會導致性能欠佳。
第二,Salakhutdinov和Hinton使用深度自動編碼器擴展了語義模型[22],他們證明了可以通過深度學習提取嵌入在query和document中的分層語義結構。這個性能優于常規的LSA[22]。然而,他們使用的深度學習方法仍采用無監督學習方法,其中模型參數優化是為了documents的重建,而不是為了區分給定query的相關documents和不相關的documents。因此,深度學習模型并沒有顯著優于基于關鍵字匹配的基線檢索模型。此外,語義哈希模型同樣面臨大規模矩陣乘法的可伸縮性挑戰。我們將在本文中證明,學習具有大量詞匯的語義模型的能力對于在真實世界的web搜索任務中獲得良好的結果是至關重要的。
? 本文研究是在上面提到兩個方面研究的基礎上進行擴展的,我們提出了一系列用于Web搜索的深度結構化語義模型(DSSM),更具體地,我們的最佳模型使用深度神經網絡(DNN)對給定的query的一組documents進行排序。首先,非線性映射將query和documents映射到一個公共語義空間。然后,給定query與每個文檔通過計算它們在公共語義空間下向量的余弦相似度來衡量相關性。神經網絡模型使用點擊數據進行判別訓練,以使在給定query的情況下被點擊的document的條件似然估計最大化。與之前提到的以無監督方式學習的潛在語義模型不同,我們的模型直接針對Web文檔排序進行了優化,因此能提供最優的性能,這將在后面展示。此外,為了處理大規模詞匯,我們提出了word hashing方法,通過該方法可以將queries或documents的高維term向量映射到低維的基于n-gram的letter向量,而信息損失很少。我們實驗表明,在語義模型中通過增加這個額外的表示層,word hashing 使我們能夠有判別地學習具有大詞匯量的語義模型,這對于web搜索是必不可少的。我們在web文檔排序任務上使用真實數據集來評估提出的DSSM模型。結果顯示,我們模型最優,在NDCG@1以2.5-4.3%的顯著優勢勝過所有競爭方法。
? 在本文的其余部分,第2節回顧了相關工作,第3節描述了我們用于web搜索的DSSM模型。第4節展示了相關的實驗,第5節文章總結。
2. 相關工作
我們的工作是基于最近兩個用于信息檢索(information retrieval,IR)的潛在語義模型研究的推廣。第一個是以有監督的方法利用點擊數據學習潛在語義模型[10]。第二個是介紹用于語義建模的深度學習方法[22]。
2.1 潛在語義模型和點擊數據的使用
用于query-document匹配的潛在語義模型在信息檢索領域是一個長期的研究課題。流行的模型可以被分為兩大類:線性映射模型和生成式主題模型。我們將一一介紹。
用于信息檢索的最有名的線性映射模型是LSA[6]。通過使用document-term矩陣的奇異值分解(SVD),一個document(或者query)可以被映射到一個低維的概念向量 D^=ATD\widehat{D}=A^TDD=ATD,其中A是映射矩陣。在文檔搜索中, 根據映射矩陣,假設分別由term向量Q和D表示的query和document之間的相關性分數與相應概念向量Q^\widehat{Q}Q?和 D^\widehat{D}D的余弦相似性分數成正比。
除了潛在語義模型,在被點擊的query-document對上訓練的翻譯模型為語義匹配提供了另一種方法[9]。與潛在語義模型不同,基于翻譯的方法直接學習document中的term與query中的term之間的翻譯關系。最近的研究表明,給定大量的點擊數據去訓練,這種方法能取得非常好的效果[9][10]。在第4節中,我們也將我們的方法和翻譯模型進行比較。
2.2 深度學習
最近,深度學習方法已經成功地應用于各種語言和信息檢索任務[1,4,7,19,22,23,25]。通過研究深度結構,深度學習技術能夠從訓練數據中發現對任務有用的不同抽象級別中隱含的結構和特征。在[22]中,Salakhutdinov和Hinton使用深度網絡(auto-encoder,自動編碼器)擴展LSA模型,以發現嵌入在query和document中的分層語義結構。他們提出了一種語義哈希(SH)方法,該方法利用從深度自動編碼器中學習到的bottleneck特征進行信息檢索。這些深度模型分兩個階段學習。首先,學習一堆生成式模型(即受限的玻爾茲曼機),以將document的term向量表示逐層映射到低維語義概念向量。其次,模型的參數優化是通過最小化document的原始term向量和重構term向量之間的交叉熵誤差。中間層激活作為特征(即bottleneck)被用于文檔排序。他們的評估展示了SH在文檔檢索任務中的效果優于LSA。然而,SH有兩個問題,并且比基于檢索模型(如使用TF-IDF term權重的余弦相似性)的標準詞匯匹配效果差。第一個問題是模型參數優化是為了文檔term向量的重構,而不是為了從給定query不相關的documents中區分相關的documents。第二,為了使計算成本可控,documents的term向量僅僅由最為頻繁的2000個單詞組成。在下一節中,我們將展示針對這兩個問題的解決方案。
3. 針對web搜索的深度結構化語義模型
3.1 用于計算語義特征的DNN
我們為將原始的文本特征映射到語義空間中的特征而開發的典型DNN結構如圖1所示。DNN的輸入(原始的文本特征)是高維的term向量,如未歸一化的query或document的term原始計數,DNN的輸出是一個映射在低維語義特征空間中的概念向量。該DNN模型用于web文檔排序,如下步驟:1)將term向量映射到其對應的語義概念向量;2)計算document和query的語義概念向量的余弦相似度作為它們的相關性分數,如下(3)到(5)等式。
圖1:DSSM的示意圖。它使用DNN將高維稀疏文本特征映射到語義空間中的低維稠密特征。第一個具有30000個單元的隱藏層完成了詞哈希處理,然后將詞哈希處理后的特征映射到多層非線性映射中。該DNN中最后一層的神經活動構成了語義空間中的特征。
更正式地,我們用xxx表示輸入的term向量,用yyy表示輸出的概念向量,用lil_ili?表示網絡的中間隱藏層,其中,i=1,...,N?1i=1,...,N-1i=1,...,N?1 ,用WiW_iWi?表示第iii個權重矩陣,用bib_ibi?表示第iii個偏置項,我們有
其中,我們用tanh作為輸出層和隱藏層lil_ili?的激活函數,i=2,...,N?1i=2,...,N-1i=2,...,N?1 :
query和document之間的語義相關性分數計算公式如下:
其中yQy_QyQ? 和 yDy_DyD? 分別是query和document的概念向量。在web搜索中,給定query,document通過他們之間的相關性分數進行排序。
通常,term向量(可以看成是信息檢索中原始的bag-of-words特征)的大小與用于索引Web文檔集合的詞匯大小相同。在實際的Web搜索任務中,詞匯量通常是非常大的。因此,當使用term向量作為輸入,神經網絡輸入層的大小在模型訓練和推理時變得不可控。為了解決這個問題,我們為DNN的第一層開發了一種稱為word hashing方法,如圖1的下部所示。這一層僅僅由線性隱藏單元組成,它的大權重矩陣不用學習。在下一小節中,我們詳細介紹word hashing方法。
3.2 Word Hashing
這里描述的word hashing方法旨在減少詞袋term向量的維度。它是基于字母(letter)的n-gram算法,是專門針對我們任務開發的一種新方法。給定一個單詞(如good), 我們首先添加單詞的開頭和結尾標識(如 #good#)。然后,我們按照字母的n-gram拆分單詞(如 tri-grams:#go, goo, ood, od#)。最后,使用字母n-grams的向量表示這個單詞。
該方法的一個問題就是沖突,即兩個不同的單詞可能具有相同的字母n-gram向量表示。表1展示了兩個詞匯表中word hashing的一些統計信息。對比原始one-hot向量的大小,word hashing允許我們使用更低維的向量表示query或者document。以40K大小的詞匯表為例。使用字母tri-gram,每個單詞可以使用10306維向量表示,在少量沖突的情況下,維度減少了4倍。當該技術應用于較大的詞匯表時,維度的減少甚至更為顯著。如表1所示,在500K大小的詞匯表中,使用字母tri-gram,每個單詞可以表示為30621維向量,在可忽略的沖突率為0.0044%(22 / 500000)的情況下維度減少16倍。
雖然英語單詞的數量是無限的,但在英語(或其他相似的語言)中字母n-grams的個數是有限的。此外,word hashing能夠將同一單詞的形態變化映射到字母n-gram空間中彼此接近的點。更重要的是,雖然在訓練集中看不到的單詞會給基于單詞表示帶來困難,但使用基于字母n-gram表示時這就不是問題了。唯一的風險是如圖1 所示的輕微表示沖突。因此,基于字母n-gram的word hashing處理對于詞匯表外的單詞問題具有魯棒性,這使我們能夠將DNN解決方案擴展到具有超大詞匯表的Web搜索任務中。我們將在第4節中介紹該技術的優勢。
在我們的實現中,基于字母n-gram的word hashing可以看成是一個固定的(即非自適應)線性變換,通過該變換,輸入層term向量可以映射到下一層的字母n-gram向量中,如圖1所示。由于字母n-gram向量的維度低得多,因此可以有效地進行DNN學習。
表1:word hashing token大小和沖突數與詞匯大小和字母n-gram類型有關
3.3 學習DSSM
點擊日志由一系列queries和它們被點擊的documents組成。我們假設一個query和因為它被點擊的documents是相關的,至少有一部分相關。受到語音和語言處理中的判別式訓練方法的啟發,我們提出了一種有監督的訓練方法,來學習模型參數,即神經網絡中的權重矩陣 和偏置向量 ,作為DSSM的基本組成部分,使得給定queries的情況下被點擊documents的條件似然概率最大化。
首先,我們通過softmax函數計算在給定query的情況下document的后驗概率,該概率來自于它們之間的語義相關性得分:
其中, γ\gammaγ表示softmax函數的平滑因子,根據經驗設置的。 DDD 表示被排序documents候選集。理想地,DDD應該包含所有可能的documents。實際上,對于每個(query,被點擊的document)對,表示成(Q,D+)(Q,D^+)(Q,D+) ,其中,QQQ 表示query, D+D^+D+ 表示被點擊的document,我們近似 DDD 包含 D+D^+D+ 和四個隨機選擇的未點擊document(表示為{Dj?;j=1,...,4}\{D^-_j;j=1,...,4\}{Dj??;j=1,...,4} )。在我們初步研究中,通過不同的采樣策略選擇未點擊的document并沒有什么不同。
在訓練過程中,模型參數通過在訓練集中給定query的情況下最大化被點擊documents的似然概率估計。相當于,我們需要最小化損失函數,如下所示:
其中, Λ\LambdaΛ表示神經網絡 {Wi,bi}\{W_i,b_i\}{Wi?,bi?} 的參數集合。由于L(Λ)L(\Lambda)L(Λ) 可微,使用基于梯度的數值優化算法進行模型訓練。由于篇幅省略了求導的詳細過程。
3.4 實現細節
為了得到訓練參數并避免過擬合,我們把點擊數據分為訓練集和驗證集兩個不重疊的部分。在我們的實驗中,使用訓練集訓練模型,使用驗證集優化訓練參數。對于DNN實驗,我們使用具有三個隱藏層結構,如圖1所示。第一個隱藏層是word hashing層,包含30k節點(字母tri-grams的大小,如表1所示)。后面二個隱藏層每個都有300個節點,最后輸出層有128個節點。word hashing是基于固定的映射矩陣實現的。相似度度量是基于128維的輸出層。根據[20],我們使用均勻分布給網絡權重初始化,區間范圍在 [?6/(fanin+fanout),6/(fanin+fanout)][-\sqrt{6/(fanin+fanout)},\sqrt{6/(fanin+fanout)}][?6/(fanin+fanout)?,6/(fanin+fanout)?] ,其中,fanin,fanoutfanin,fanoutfanin,fanout 分別表示輸入和輸出的單元數。根據經驗,我們發現逐層做預訓練并不能給模型帶來更好的效果。在模型訓練階段,我們使用mini-batch的隨機梯度下降(SGD)優化模型。每一個mini-batch由1024個訓練樣本組成。我們觀察到DNN訓練通常在整個數據集訓練20輪后就收斂了。
4. 實驗
我們在web文檔排序任務中使用真實的數據評估DSSM模型(在第3節中提出)。在本節中,我們首先描述了用于模型評估的數據集。然后,我們將DSSM模型和其他現存最優的排序模型進行對比分析。我們還研究了第3節中提到的技術的故障影響。
4.1 數據集和評估方法
我們使用大規模的真實數據集來評估檢索模型,以下稱為評估數據集。評估數據集包含從商業搜索引擎一年的搜索日志文件中采樣的16510個英文queries。平均而言,每個query和15個網頁文本(URLs)相關聯,每個query和title對有一個相關標簽,這個標簽由人工生成,并且有5個相關性級別,范圍是0到4。其中4表示document和query最相關,0表示document和query不相關。所有的queries和documents經過預處理,從而使文本用空格標記,小寫、數字保留,沒有詞干/詞形變化。
本研究所有用到的排序模型(即DSSM、主題模型、線性映射模型)包含很多需要根據經驗進行估計的自由超參數。在所有的實驗中,我們使用2折交叉驗證:數據集的一半用來獲取結果,另一半用來參數調優。全局的檢索結果來自兩個數據集的結合。
我們評估的所有排序模型的性能均通過歸一化貼現累積增益(NDCG)的平均值來衡量[17],我們將在本節中報告截斷級別為1、3、10的NDCG分數。我們還使用了配對t檢驗進行顯著性檢驗。當p值小于0.05時差異被認為是有統計學意義的。
在我們的實驗中,我們假設query和該query下被點擊的documents的標題是平行的。我們使用和[11]相似的處理方法從一年的查詢日志文件中提取了大量的query-title對進行模型訓練。一些之前的研究,如[24,11]展示了query的點擊字段,當它有效時,對網頁搜索是最有效的信息,其次是標題字段。然而,對于很多URLs點擊信息是不可用的,尤其是新URLs和尾部URLs,使它們的點擊字段無效(即該字段為空或由于稀疏而不可靠)。本研究中,我們假設評估數據集中每個document要么是新URL,要么是尾URL,因此沒有點擊信息(它的點擊字段是無效的)。我們的研究目標是為了研究如何從這些有大量點擊信息的流行URLs中學習潛在語義模型,并應用模型提高對這些尾部URLs或者新URLs的檢索。為此,我們的實驗僅僅使用網頁文本的標題進行排序。為了訓練潛在語義模型,我們使用大約1億對隨機抽樣的子集,這些子集的documents是非常流行的并且有大量的點擊信息。我們對經過訓練的模型進行測試,以對不包含點擊信息的評估數據集中的文檔進行排序。我們以同樣的方式對query-title進行預處理作為評估數據以保持數據的一致性。
4.2 實驗結果
表2總結了我們實驗的主要結果,我們將DSSM模型最好的版本(第12行)和三組baseline模型進行對比。第一組baseline模型包含一對被廣泛使用的詞匯匹配模型,如TF-IDF(第1行)和BM25(第2行)。第二組baseline模型是一個單詞翻譯模型(WTM,第3行),其通過學習query的單詞和document的單詞之間的詞匯映射來直接解決query-document語言差異的問題[9,10]。第三組baseline模型包含一組當前最優的潛在語義模型,通過無監督方式學習documents(LSA,PLSA,DAE;第4,5,6行)或者以有監督方式學習點擊數據(BLTM-PR,DPM;第7,8行)。為了使結果具有可比性,我們根據[10]中的描述重新實現了這些模型。由于模型復雜度的限制,LSA和DPM模型使用40K詞匯訓練,其他模型使用500K詞匯訓練。接下來篇幅描述更詳細的細節。
TF-IDF(第1行)是baseline模型,documents和queries使用TF-IDF term權重算法被表示成term向量。然后通過計算query和document的term向量余弦相似度對documents進行排序。我們也將使用BM25(第2行)排序模型作為一個baseline模型。TF-IDF和BM25都是基于term匹配的最前沿的document排序模型。它們在相關的研究中被廣泛使用作為baseline模型。
WTM(第3行)是我們根據[9]的描述實現的單詞翻譯模型,用作模型對比分析。我們可以看到WTM模型比baseline模型(TF-IDF和BM25)效果好很多,證實了[9]中的結論。LSA(第4行)是我們實現的潛在語義分析模型。我們使用PCA替代SVD計算線性映射矩陣。queries和titles被認為是獨立的documents,來自點擊數據的配對信息(pair information)并沒有在這個模型中使用。PLSA(第5行)是我們根據[15]實現的模型,模型訓練時僅僅是使用documents(如query-title對中的title)。不同于[15]的是我們實現的PLSA使用如[10]中的MAP估計進行模型學習。DAE(第6行)是我們實現的基于深度自動編碼器的語義哈希模型,是Salakhutdinov和Hinton在[22]中提出的模型。由于模型訓練的復雜度,輸入是基于40K詞庫的term向量,DAE架構包含4個隱藏層,每層有300個節點,中間的瓶頸層(bottleneck layer)有128個節點。模型使用documents數據進行無監督學習。在微調階段,我們使用交叉熵誤差作為訓練標準。中間層激活被用作特征來計算query和document之間的余弦相似度。我們的結果和之前在[22]中報告的結果一致。基于潛在語義模型的DNN效果好于線性映射模型(如LSA)。然而,LSA和DAE都僅僅使用document數據以無監督的方式進行訓練。因此,不會好于最先進的詞匯匹配排序模型。
在[10]中描述的雙語主題模型的不同版本中,BLTM-PR(第7行)是性能最好的。具有后驗正則化的BLTM(BLTM-PR)在query-title對上進行模型訓練,使用帶有約束的EM算法強制將具有相同terms部分的query和title對分配給每個隱藏主題。DPM(第8行)是在[10]中提出的線性判別映射模型,映射矩陣是使用S2Net算法[26]對相關和不相關的query-title對進行判別學習得到的。和BLTM是PLSA的擴展一樣,DPM可以看作是LSA的擴展,線性映射矩陣是使用點擊數據以有監督的方法學習并以document排序優化得到。我們可以看到,使用點擊數據進行模型訓練可以提高模型效果。BLTM-PR和DPM模型的效果都比baseline模型(TF-IDF和BM25)好。
第9到12行展示了不同版本DSSM模型的實驗結果。DNN(第9行)是沒有使用word hashing的DSSM模型。它使用和DAE(第6行)相同的架構,但使用點擊數據以有監督的方式進行訓練。輸入和DAE一樣也是基于40k的詞匯表的term向量。L-WH linear(第10行)是使用基于字母tri-grams的word hashing建模,然后以有監督的方式訓練模型。和L-WH nonlinear(第11行)不同的是我們在它的輸出層沒有應用任何非線性激活函數,如tanh。L-WH DNN(第12行)是我們最好的基于DNN的語義模型,使用了3個隱藏層(包含帶有基于字母tri-grams的word hashing層(L-WH))和輸出層,使用query-title對進行判別式訓練,如章節3所述。雖然基于字母n-grams的word hashing方法能應用于任意大的詞匯表,但是為了和其他模型對比的公平性,我們的模型也使用500K的詞匯表。
從表2的結果可以清楚的看到,對點擊數據的有監督學習以及為排序而定制的以信息檢索為中心的優化標準,對于獲得更優的document排序性能是必要的。
Word Hashing允許我們使用大規模的詞匯表進行模型訓練,例如,第12行的模型使用500K的詞匯表(帶有單詞哈希),效果比第9行使用40K詞匯表的模型好。盡管前者的自由參數略少于后者,因為單詞哈希層僅包含大約30k個節點。
我們還評估了在query和document中嵌入的語義信息進行建模時,使用深層結構和淺層結構的影響。
結果如表2所示,DAE(第3行)的效果比LSA(第2行)好,而LSA和DAE都是無監督模型。在有監督模型中,我們觀察到淺層結構和深層結構有類似的效果。對比第11和12行的模型,我們觀察到增加非線性層的數量(從1到3)可以使NDCG得分提高0.4-0.5點,這在統計上是顯著的,然而,如果都是一層的淺層模型,在線性和非線性模型之間沒有什么不同(第10行 vs 第11行)。
表2 與現有技術水平和DSSM各種設置的比較結果
5. 結論
我們展示和評估了一系列新的潛在語義模型,特別是那些具有深度結構的模型,我們將其稱為DSSM模型。主要貢獻在于我們在三個關鍵方面對先前的潛在語義模型(例如LSA)進行了顯著擴展。第一,我們通過直接針對document排序的目標,利用點擊數據來訓練優化模型所有版本的參數。第二,受最近證明在語音識別中非常成功的深度學習框架的啟發[5] [13] [14] [16] [18],我們使用多個隱藏表示層將線性語義模型擴展到非線性語義模型。所采用的深層結構進一步增強了建模能力,因此可以捕獲和表示在queries和documents中的更復雜的語義結構。第三,我們使用基于字母n-gram的word hashing技術,該技術被證明有助于擴大深度模型的訓練范圍,以便在真實的Web搜索中使用非常大的詞匯表。在我們的實驗中,我們展示了與上述三個方面相關的新技術可以顯著提高文檔排序任務的性能。這三組新技術的結合產生了一種新的最先進的語義模型,它以顯著的優勢擊敗了所有之前開發的競爭模型。
如果本文對你有幫助,記得“點贊、收藏”哦~
總結
以上是生活随笔為你收集整理的论文翻译1-----DSSM:Deep Structured Semantic Models的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 宝安区2021年高考成绩查询入口,宝安区
- 下一篇: 普通USB线定义