當前位置：首頁 >

广告主产品推词中的NLP

發布時間：2023/12/10 32 豆豆

生活随笔收集整理的這篇文章主要介紹了广告主产品推词中的NLP 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

加詞，加產品，調價是廣告主的核心問題，為了解決廣告主加詞的問題在阿里巴巴以及速賣通的賬戶后臺提供了加詞利器——先知，一鍵解決廣告主煩惱，從此不再為加詞而憂愁。

一?引言

在目前付費搜索引擎中，買詞和競價成為廣告主競爭流量的主要手段。因此在付費搜索引擎的廣告主賬戶后臺中，所有的功能都是圍繞三個點在展開，第一：推廣產品(product)，第二：購買關鍵詞(keyword)，第三：關鍵詞出價(bidprice)。在廣告主加入新的產品時，第一訴求就是購買關鍵詞。在目前國際B類電商平臺上，廣告主如何在網站千萬級的關鍵詞中選擇適合該產品的關鍵詞對于用戶來說是一個艱難的任務。并且考慮到網站整體的檢索質量，網站展示的廣告必須和用戶的搜索意圖相符，所以在廣告主購買關鍵詞時必須要求購買的關鍵詞和產品能夠綁定，所謂綁定就是keyword和product的相關性分(mlrscore)必須保證在良及以上。千萬級的keyword集合，挑選適合購買的關鍵詞少之又少。如何給用戶提供高效選詞的渠道成為廣告后臺賬戶的重點。

在阿里巴巴國際站投放廣告開始，廣告后臺就有了產品推詞模塊——先知。先知主要提供根據產品給用戶推薦適合購買的關鍵詞。在廣告主進入后臺進行買詞時先知都會實時計算出廣告主可以購買的關鍵詞集合，為廣告主提供高效的買詞解決方案。

二模塊及算法設計

產品推詞包含四個模塊：

QueryProcess模塊，完成title中心短語的抽取。

query特征抽取模塊，為離線模塊，抽取完特征后導入引擎，由引擎建立倒排索引。

檢索引擎模塊，完成匹配query的召回。

mlrscore計算模塊，完成offer和query的文本相關性計算。

模塊間的調用關系如下圖所示：

2.1 中心短語抽取

2.1.1 中心短語構造

TermWeight作為底層基礎模塊，完成query以及產品title中的term權重分析。TermWeight使用同session的點擊query作為訓練數據，使用GBDT模型進行訓練，構建成query以及title的term權重分析的算法模塊。

通過TermWeight分析后，term權重越高表明該term在title中的價值越大，因此通過分析后的weight排序，取top n的term作為title的核心短語。

在QP模塊中，TermWeight分析后的term，取top50%的term為有用的term記為Tu，有用term的top50%為重要的term記為Ti。如果term長度小于6，則所有的query都作為有用的term。如果term的長度大于16，最多取8個term為有用term。

使用重要term集合Ti和有用Term?Tu進行兩兩組合，再組合時考慮term在title中的位置信息。考慮組合的位置信息，共有4種位置，分別如下：

w1 w2型

表示在title中w1是出現在w2前面，所以組合的中心短語只有w1 w2一種。

w2 w1型

表示在title中w2出現在w1前面，組合成w2 w1的中心短語。

w1 w2 w1型

表示在title中w1即在w2前面出現，也在后面出現，所以組合的中心短語有兩種，分別為：w1 w2和w2 w1。

w2 w1 w2型

表示在title中w1前后都出現了w2。可以組合成w2 w1和w1 w2兩種query。

根據上述四種組合并去重，得到title的初步組合中心短語。中心短語的權重使用組合的兩個term中權重較高者表示。

2.1.2 中心短語語言模型處理

根據3.1.1中的方式初步構造出了title的中心短語，組合出的中心短語很多并不符合語法規范。在3.1.1中組合的只有bigram，所以使用bigram語法對組合的中心短語進行過濾。

bigram語法的線下訓練方式如下：

bigram訓練數據由網站所有offer的title和搜索query組成。bigram的權重使用在文本中出現的頻率來表示是否符合語法，如果兩個單詞經常一起出現，則對應的頻率也會比較高。

統計bigram的方法如下：

對每條文本進行歸一化，然后進行切分。得到有序的word.

按照有序的方式分別統計bigram出現的次數以及每個單詞出現的次數。

計算bigram的頻率。P（xi，xj）=C（xi，xj）/C（xi）。C（xi，xj）是xi xj出現的次數，C（xi）是xi出現的次數。為了減小索引的大小在計算頻率是過濾C（xi）<100的term。

3.1.1中得到的bigram經過語言模型處理，得到bigram的頻率。結合bigram在termweight中的權重，得到bigram總的權重。總權重計算方式如下：

finalweight=0.4*(bi_weight/max_bi_weight)+0.6*(t_weight/max_t_weight)

其中bi_weight為當前bigram的語言模型頻率，max_bi_weight為title的所有bigram中語言模型頻率的最大值。t_weight為bigram的termweight權重，max_t_weight為title的所有bigram中termweight的最高權重。最后的結果再按照線性組合。

在上述語言模型中，對于未登錄詞在訓練bigram時并沒有進行平滑，所以在處理是如果是未登錄詞，則返回MIN_WEIGHT=0.000001的極小值。

2.2 線下Query特征抽取

為了滿足產品推詞的精準以及買詞的合理性，需要對offer能夠推薦的詞進行篩選，所以需要對Query進行特征分析，檢索時根據query的特征計算排序分。

Query特征抽取模塊為線下模塊，設計的特征主要為Query的預測類目，Query的中心詞，Query的長度等。

2.3 檢索引擎

QP獲得的中心短語進行檢索，使用query的特征和中心短語的特征計算整體檢索的排序分，然后最終取top的檢索結果作為offer推詞的初步結果，然后在調用rs計算QSScore，根據QS分最為最終的推詞結果。

?

總結

以上是生活随笔為你收集整理的广告主产品推词中的NLP的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python做接口自动化测试仪器经销商_
下一篇：推荐一个js代码混淆工具的网址