日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

搜索NLP行业模型和轻量化客户定制

發(fā)布時(shí)間:2024/8/23 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索NLP行业模型和轻量化客户定制 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

簡(jiǎn)介:開放搜索NLP行業(yè)模型和輕量化客戶定制方案,解決減少客戶標(biāo)注成本、完全無(wú)標(biāo)注或少量簡(jiǎn)單標(biāo)注的等問(wèn)題,讓搜索領(lǐng)域擴(kuò)展更易用。

特邀嘉賓:

徐光偉(昆卡)--阿里巴巴算法專家

搜索NLP算法

搜索鏈路

這是一個(gè)完整的從查詢?cè)~到搜索結(jié)果的鏈路, 其中NLP算法發(fā)揮作用的地方主要在第二階段的查詢分析,該階段包含多個(gè)NLP 算法模塊,如文本側(cè)的分詞、糾錯(cuò)、實(shí)體識(shí)別、詞權(quán)重、同義詞以及語(yǔ)義向量等。系統(tǒng)是結(jié)合文本和語(yǔ)義向量多路召回排序的架構(gòu),從而滿足不同業(yè)務(wù)場(chǎng)景的搜索效果需求。當(dāng)然除了查詢分析,在第一階段的搜索引導(dǎo)以及第四階段的排序服務(wù)中也有很多NLP 算法的應(yīng)用。

查詢分析

NLP 算法主要在這里的幾個(gè)子模塊發(fā)揮作用:

  • 分詞,精準(zhǔn)的分詞可以提高檢索效率,也會(huì)讓召回結(jié)果更加精準(zhǔn),
  • 拼寫糾錯(cuò),對(duì)用戶輸入的query中出現(xiàn)拼拼寫錯(cuò)誤可以自動(dòng)去糾錯(cuò),提高搜索的體驗(yàn)。
  • 實(shí)體識(shí)別,可以對(duì)query 中的每個(gè)詞打上對(duì)應(yīng)的實(shí)體標(biāo)簽,從而為后續(xù)的query改寫和排序提供關(guān)鍵的特征。
  • 詞權(quán)重模型,會(huì)對(duì)每個(gè)詞打上高、中、低的檔位,在查詢結(jié)果時(shí)去做丟詞的重查。
  • 同義詞,擴(kuò)展出相同意思的詞來(lái)擴(kuò)大召回范圍。
  • 最后是經(jīng)過(guò)完整的查詢分析模塊之后的一個(gè)整體的query改寫,將用戶輸入的query轉(zhuǎn)換成我們搜索引擎能識(shí)別到的查詢串。

現(xiàn)在開放搜索不僅支持了阿里自研的搜索引擎,也對(duì)開源的ES引擎做了兼容,可以讓用戶更方便的使用到我們的算法能力。

行業(yè)模型

客戶痛點(diǎn)

1.通用模型領(lǐng)域適配難

  • 通用模型主要解決新聞資訊行業(yè)問(wèn)題;
  • 在具體行業(yè)上效果會(huì)大打折扣;

例如:通用領(lǐng)域和電商領(lǐng)域的模型的區(qū)別

2.公開行業(yè)模型少

  • 云服務(wù)產(chǎn)商基本只提供通用模型
  • 公開行業(yè)數(shù)據(jù)集也主要覆蓋通用領(lǐng)域

解決難度

構(gòu)建一個(gè)行業(yè)搜索NLP 模型的流程:

  • 首先是標(biāo)注數(shù)據(jù)集這一步對(duì)于行業(yè)知識(shí)的要求非常高,同時(shí)對(duì)于數(shù)據(jù)量的要求也需要達(dá)到萬(wàn)級(jí)別,標(biāo)注這樣的數(shù)據(jù)同時(shí)也需要數(shù)個(gè)月的時(shí)間。
  • 接著是模型訓(xùn)練,這一步是需要有專業(yè)的算法人員,如果不是對(duì)算法不熟悉的話,模型的迭代效率會(huì)很低
  • 最后是模型上線這一步需要工程人員去部署運(yùn)維,如果涉及到深度模型的一些上線,還會(huì)有很多效率優(yōu)化的工作需要去做。在數(shù)據(jù)集標(biāo)注階段其實(shí)就已經(jīng)存在了很多的挑戰(zhàn)。
  • 分詞標(biāo)注難點(diǎn)

    1.領(lǐng)域知識(shí)要求高

    例如:

    • 藥物的名稱:利多卡因氯己定氣霧劑 | 利多卡因 氯己定 氣霧劑
    • 地址:南召縣四棵樹鄉(xiāng)王營(yíng)村 | 南召 縣 四棵樹 鄉(xiāng) 王營(yíng) 村

    2.交叉歧義判斷難

    例如:

    • 洗衣服粉 | 洗衣 ?服 ?粉

    實(shí)體識(shí)別標(biāo)注難點(diǎn)

    1.領(lǐng)域知識(shí)要求高

    例如:

    • 澳洲愛他美(母嬰品牌)金裝一段、科比(球鞋系列)4
    • pytorch實(shí)現(xiàn)GAN(算法模型)

    解決方法

    開放搜索基于阿里巴巴內(nèi)部搜索的數(shù)據(jù)積累,結(jié)合自動(dòng)化數(shù)據(jù)挖掘和自研的算法模型,對(duì)行業(yè)模型的構(gòu)建鏈路做了一個(gè)改造。

    同樣是以分詞和NER為例,下面模型圖是分詞的流程。我們首先通過(guò)自動(dòng)的新詞發(fā)現(xiàn)算法去挖掘目標(biāo)領(lǐng)域的領(lǐng)域新詞,得到這些新詞之后,我們會(huì)在目標(biāo)領(lǐng)域上去構(gòu)建一個(gè)遠(yuǎn)程監(jiān)督的訓(xùn)練數(shù)據(jù)。

    基于這樣的遠(yuǎn)程監(jiān)督訓(xùn)練數(shù)據(jù),我們提出了一個(gè)對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)模型,結(jié)構(gòu)可以達(dá)到降噪的效果,從而去年得到一個(gè)我們目標(biāo)領(lǐng)域的領(lǐng)域模型。

    下面的模型圖是NER的流程,我們采用了結(jié)合圖神經(jīng)網(wǎng)絡(luò)的graph NER的模型結(jié)構(gòu),它可以融合知識(shí)庫(kù)和標(biāo)注數(shù)據(jù)。 知識(shí)庫(kù)是由剛才分詞的鏈路中新詞發(fā)現(xiàn)模塊自動(dòng)挖掘出的新詞,然后我們做一個(gè)自動(dòng)的實(shí)體詞打標(biāo),從而去構(gòu)建出領(lǐng)域的知識(shí)庫(kù)。對(duì)應(yīng)的技術(shù)論文我們都已經(jīng)發(fā)表在NLP 領(lǐng)域頂會(huì)ACL上。

    小結(jié)一下,通過(guò)上面提到的技術(shù)方案,以電商行業(yè)為例,看一下開放搜索行業(yè)模型上達(dá)到的效果。

    可以看到開放搜索的電商行業(yè)增強(qiáng)版都明顯比通用版效果會(huì)好很多。

    這套方案不僅僅適用于電商行業(yè),只要是有數(shù)據(jù)積累的行業(yè),都可以快速構(gòu)建出一套行業(yè)模型。

    開放搜索輕量化客戶定制

    客戶痛點(diǎn)

    首先可以看到通用模型直接使用大概能達(dá)到一個(gè)60分的效果。

    剛剛提到的行業(yè)模型,適用能力可以達(dá)到80分的效果。

    但具體到每個(gè)客戶又存在細(xì)分領(lǐng)域的定制問(wèn)題。 一般客戶的目標(biāo)可能是要達(dá)到90分

    比如下面的兩個(gè)例子:

  • 左邊的這個(gè)“萬(wàn)斯汽水系列”,這其實(shí)是一個(gè)球鞋的一個(gè)具體的品牌和系列名稱, 雖然開放搜索電商模型已經(jīng)可以把品牌和普通詞識(shí)別正確,但是對(duì)于汽水這個(gè)具體的細(xì)分的系列并沒有正確的識(shí)別好。
  • 下面右邊的這個(gè)例子是“漢本萃葆蔚飲品”。這里開放搜索的電商模型完全沒有識(shí)別出其中特有的品牌和它的子系列,客戶在我們提供的行業(yè)模型基礎(chǔ)上如果去做自主的定制優(yōu)化一樣會(huì)遇到上面介紹行業(yè)模型解決方案時(shí)的那些問(wèn)題,從而最終很難去突破85分,
  • 我們的目標(biāo)是減少客戶的標(biāo)注成本,完全無(wú)標(biāo)注或者少量簡(jiǎn)單的標(biāo)注,讓客戶的定制會(huì)更加易用,從而直接達(dá)到一個(gè)85分的效果。

    解決思路

    整體的流程和行業(yè)模型構(gòu)建鏈路類似,要把這些能力產(chǎn)品工具化讓客戶可以自主參與調(diào)優(yōu)。

    1.新建訓(xùn)練模型

    下圖是我們做的一個(gè)工具demo,上面是創(chuàng)模型,創(chuàng)建部分客戶可以選擇基礎(chǔ)的行業(yè)模型,然后上傳自己的領(lǐng)域無(wú)標(biāo)注的數(shù)據(jù)就可以自動(dòng)的開始模型的訓(xùn)練。

    2.效果評(píng)估

    下面是模型訓(xùn)練之后客戶可以在我們的系統(tǒng)上面去做一個(gè)直觀的效果評(píng)估,可以看到這里會(huì)列出基礎(chǔ)的模型和以及自動(dòng)訓(xùn)練之后的模型的效果的變化,客戶也可以去做少量的人工標(biāo)注來(lái)驗(yàn)證模型的效果。

    這個(gè)鏈路目前已經(jīng)在阿里內(nèi)部使用,近期還會(huì)在開放搜索的產(chǎn)品上透出給到客戶,原來(lái)我們?nèi)プ鲆粋€(gè)輕量化的客戶定制達(dá)到上述效果可能需要一到兩個(gè)月的時(shí)間,還需要去標(biāo)注1萬(wàn)句以上的這些標(biāo)注數(shù)據(jù)。現(xiàn)在的話基于這套方案只需要一周的時(shí)間,完全無(wú)標(biāo)注或者只需要去標(biāo)注1000個(gè)此以內(nèi)的標(biāo)注數(shù)據(jù)就可以達(dá)到這樣的效果。

    輕量化定制效果展示

    我們的工具可以自動(dòng)發(fā)現(xiàn)出場(chǎng)景中的這些新詞,并對(duì)這些新詞做實(shí)體標(biāo)簽的預(yù)測(cè),可以看到括號(hào)中的這些新詞是在不同的上下文中預(yù)測(cè)出的,標(biāo)簽的一個(gè)分布從而指導(dǎo)我們?nèi)ヅ袛噙@個(gè)新詞它是否是一個(gè)合法的新詞,以及它屬于的實(shí)體標(biāo)簽到底是什么,為我們的模型去提供最關(guān)鍵的信息。

    地址場(chǎng)景

    電商場(chǎng)景

    原文鏈接
    本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。?

    創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

    總結(jié)

    以上是生活随笔為你收集整理的搜索NLP行业模型和轻量化客户定制的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 亚洲av综合色区无码二区爱av | 91成人黄色| 伊人一区二区三区四区 | 亚洲日日夜夜 | 9999av| 丰满人妻一区二区三区免费 | 视色影院| 另类视频一区 | 人妻无码中文久久久久专区 | 中国二级毛片 | 黄色片的网站 | 中文永久免费观看 | 人妻 校园 激情 另类 | 综合性色| 日韩免费网址 | 婷婷影视 | 成人做爰9片免费视频 | 日韩av在线网址 | 成人亚洲精品久久久久软件 | 播放男人添女人下边视频 | 女人脱裤子让男人捅 | 麻豆国产精品视频 | 麻豆免费在线观看视频 | 日韩国产在线播放 | 毛片全黄 | 亚洲欧洲日韩国产 | av福利在线 | 一区二区三区高清不卡 | 一级做a爰片久久毛片 | 黄色精彩视频 | 亚洲精品久久久久 | 四虎影视库 | 天堂在线观看中文字幕 | 日韩黄色一级大片 | 受虐m奴xxx在线观看 | 国产在线观看免费av | 欧美日韩国产精品成人 | 国产私拍 | 免费在线看黄视频 | 性开放耄耋老妇hd | 日韩特级片 | 韩漫动漫免费大全在线观看 | www狠狠爱| 韩国三级bd高清中字2021 | 韩国三级与黑人 | 亚洲av永久一区二区三区蜜桃 | 亚洲av无码不卡一区二区三区 | 韩国伦理大片 | 九色婷婷 | 人妻少妇精品视频一区二区三区 | 一区二区三区在线观看视频 | 久久男人网 | 久久亚洲av成人无码国产电影 | www毛片com | 国产资源精品 | 亚洲人精品午夜射精日韩 | 午夜电影一区二区三区 | 日日夜夜网 | 亚洲AV无码AV吞精久久中文版 | 亚洲美女色视频 | 亚洲一区欧美日韩 | 色哟哟黄色| 日日射影院 | 色中文在线 | 国产一区二区亚洲 | 日本一级做a爱片 | 性久久久久久久久 | 日韩黄大片 | 芒果视频在线观看免费 | 午夜国产精品视频 | 97狠狠干 | 伊人网国产 | 在线观看视频毛片 | 97免费人妻无码视频 | 精品欧美一区二区三区成人 | 日韩免费网址 | 免费黄色一级 | 久久久视频6r | 午夜爽视频 | 欧美日韩精品一区二区三区视频播放 | 亚洲成人网在线 | 久久精品1| 中文字幕乱码人妻无码久久95 | 亚洲天堂欧美在线 | 久久看av| 久久综合导航 | 日本少妇b | 国产丝袜视频在线 | 性猛交xxxx乱大交孕妇2十 | 少妇特黄a一区二区三区88av | 韩国在线不卡 | 中文字幕第十一页 | 91亚洲一线产区二线产区 | 91色吧| 久久久一级黄色片 | 激情午夜视频 | 成人网在线 | 欧美在线性视频 | 99国产在线观看 |