日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

搜索NLP行业模型和轻量化客户定制

發布時間:2024/8/23 72 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索NLP行业模型和轻量化客户定制 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介:開放搜索NLP行業模型和輕量化客戶定制方案,解決減少客戶標注成本、完全無標注或少量簡單標注的等問題,讓搜索領域擴展更易用。

特邀嘉賓:

徐光偉(昆卡)--阿里巴巴算法專家

搜索NLP算法

搜索鏈路

這是一個完整的從查詢詞到搜索結果的鏈路, 其中NLP算法發揮作用的地方主要在第二階段的查詢分析,該階段包含多個NLP 算法模塊,如文本側的分詞、糾錯、實體識別、詞權重、同義詞以及語義向量等。系統是結合文本和語義向量多路召回排序的架構,從而滿足不同業務場景的搜索效果需求。當然除了查詢分析,在第一階段的搜索引導以及第四階段的排序服務中也有很多NLP 算法的應用。

查詢分析

NLP 算法主要在這里的幾個子模塊發揮作用:

  • 分詞,精準的分詞可以提高檢索效率,也會讓召回結果更加精準,
  • 拼寫糾錯,對用戶輸入的query中出現拼拼寫錯誤可以自動去糾錯,提高搜索的體驗。
  • 實體識別,可以對query 中的每個詞打上對應的實體標簽,從而為后續的query改寫和排序提供關鍵的特征。
  • 詞權重模型,會對每個詞打上高、中、低的檔位,在查詢結果時去做丟詞的重查。
  • 同義詞,擴展出相同意思的詞來擴大召回范圍。
  • 最后是經過完整的查詢分析模塊之后的一個整體的query改寫,將用戶輸入的query轉換成我們搜索引擎能識別到的查詢串。

現在開放搜索不僅支持了阿里自研的搜索引擎,也對開源的ES引擎做了兼容,可以讓用戶更方便的使用到我們的算法能力。

行業模型

客戶痛點

1.通用模型領域適配難

  • 通用模型主要解決新聞資訊行業問題;
  • 在具體行業上效果會大打折扣;

例如:通用領域和電商領域的模型的區別

2.公開行業模型少

  • 云服務產商基本只提供通用模型
  • 公開行業數據集也主要覆蓋通用領域

解決難度

構建一個行業搜索NLP 模型的流程:

  • 首先是標注數據集這一步對于行業知識的要求非常高,同時對于數據量的要求也需要達到萬級別,標注這樣的數據同時也需要數個月的時間
  • 接著是模型訓練,這一步是需要有專業的算法人員,如果不是對算法不熟悉的話,模型的迭代效率會很低
  • 最后是模型上線這一步需要工程人員去部署運維,如果涉及到深度模型的一些上線,還會有很多效率優化的工作需要去做。在數據集標注階段其實就已經存在了很多的挑戰。
  • 分詞標注難點

    1.領域知識要求高

    例如:

    • 藥物的名稱:利多卡因氯己定氣霧劑 | 利多卡因 氯己定 氣霧劑
    • 地址:南召縣四棵樹鄉王營村 | 南召 縣 四棵樹 鄉 王營 村

    2.交叉歧義判斷難

    例如:

    • 洗衣服粉 | 洗衣 ?服 ?粉

    實體識別標注難點

    1.領域知識要求高

    例如:

    • 澳洲愛他美(母嬰品牌)金裝一段、科比(球鞋系列)4
    • pytorch實現GAN(算法模型)

    解決方法

    開放搜索基于阿里巴巴內部搜索的數據積累,結合自動化數據挖掘和自研的算法模型,對行業模型的構建鏈路做了一個改造。

    同樣是以分詞和NER為例,下面模型圖是分詞的流程。我們首先通過自動的新詞發現算法去挖掘目標領域的領域新詞,得到這些新詞之后,我們會在目標領域上去構建一個遠程監督的訓練數據。

    基于這樣的遠程監督訓練數據,我們提出了一個對抗學習網絡的結構模型,結構可以達到降噪的效果,從而去年得到一個我們目標領域的領域模型。

    下面的模型圖是NER的流程,我們采用了結合圖神經網絡的graph NER的模型結構,它可以融合知識庫和標注數據。 知識庫是由剛才分詞的鏈路中新詞發現模塊自動挖掘出的新詞,然后我們做一個自動的實體詞打標,從而去構建出領域的知識庫。對應的技術論文我們都已經發表在NLP 領域頂會ACL上。

    小結一下,通過上面提到的技術方案,以電商行業為例,看一下開放搜索行業模型上達到的效果。

    可以看到開放搜索的電商行業增強版都明顯比通用版效果會好很多。

    這套方案不僅僅適用于電商行業,只要是有數據積累的行業,都可以快速構建出一套行業模型。

    開放搜索輕量化客戶定制

    客戶痛點

    首先可以看到通用模型直接使用大概能達到一個60分的效果。

    剛剛提到的行業模型,適用能力可以達到80分的效果。

    但具體到每個客戶又存在細分領域的定制問題。 一般客戶的目標可能是要達到90分

    比如下面的兩個例子:

  • 左邊的這個“萬斯汽水系列”,這其實是一個球鞋的一個具體的品牌和系列名稱, 雖然開放搜索電商模型已經可以把品牌和普通詞識別正確,但是對于汽水這個具體的細分的系列并沒有正確的識別好。
  • 下面右邊的這個例子是“漢本萃葆蔚飲品”。這里開放搜索的電商模型完全沒有識別出其中特有的品牌和它的子系列,客戶在我們提供的行業模型基礎上如果去做自主的定制優化一樣會遇到上面介紹行業模型解決方案時的那些問題,從而最終很難去突破85分,
  • 我們的目標是減少客戶的標注成本,完全無標注或者少量簡單的標注,讓客戶的定制會更加易用,從而直接達到一個85分的效果。

    解決思路

    整體的流程和行業模型構建鏈路類似,要把這些能力產品工具化讓客戶可以自主參與調優。

    1.新建訓練模型

    下圖是我們做的一個工具demo,上面是創模型,創建部分客戶可以選擇基礎的行業模型,然后上傳自己的領域無標注的數據就可以自動的開始模型的訓練。

    2.效果評估

    下面是模型訓練之后客戶可以在我們的系統上面去做一個直觀的效果評估,可以看到這里會列出基礎的模型和以及自動訓練之后的模型的效果的變化,客戶也可以去做少量的人工標注來驗證模型的效果。

    這個鏈路目前已經在阿里內部使用,近期還會在開放搜索的產品上透出給到客戶,原來我們去做一個輕量化的客戶定制達到上述效果可能需要一到兩個月的時間,還需要去標注1萬句以上的這些標注數據。現在的話基于這套方案只需要一周的時間,完全無標注或者只需要去標注1000個此以內的標注數據就可以達到這樣的效果。

    輕量化定制效果展示

    我們的工具可以自動發現出場景中的這些新詞,并對這些新詞做實體標簽的預測,可以看到括號中的這些新詞是在不同的上下文中預測出的,標簽的一個分布從而指導我們去判斷這個新詞它是否是一個合法的新詞,以及它屬于的實體標簽到底是什么,為我們的模型去提供最關鍵的信息。

    地址場景

    電商場景

    原文鏈接
    本文為阿里云原創內容,未經允許不得轉載。?

    創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的搜索NLP行业模型和轻量化客户定制的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。