日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

当Elasticsearch遇见智能客服机器人

發布時間:2025/3/15 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 当Elasticsearch遇见智能客服机器人 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


摘要

本次分享主要會介紹一下ES是如何幫我們完成NLP的任務的。在做NLP相關任務的時候,ES的相似度算法并不足以支撐用戶的搜索,需要使用一些與語義相關的方法進行改進。但是ES的很多特性對我們優化搜索體驗是非常有幫助的。

內容來源:2017年6月10日,趨勢科技個人消費者部機器學習工程師楊文俊在“Elastic Meetup 南京”進行《Elasticsearch輔助的智能客服機器人》演講分享。IT 大咖說作為獨家視頻合作方,經主辦方和講者審閱授權發布。

閱讀字數:1605 | 4分鐘閱讀

嘉賓演講視頻回放:t.cn/RQAEw96

簡介-Dr.cleaner/Dr.X系列產品

我們主要服務的項目是MAC上的APP——Dr.cleaner以及Dr.X系列產品。

Dr.cleaner在多個國家、地區的清理類MAC APP中排名第一,日活接近百萬。

幸福的煩惱:客服

多語言、跨時區:我們的APP在國內可能還不是非常出名,它的目前的客戶基本都在海外,其中美國是主要客戶,同時也有其它國家跟地區的用戶。

數量跟不上:隨著用戶數的急劇增加,客服的數量跟不上用戶數的增長。

解決方案:客服機器人

客服機器人首要能解決產品相關的問題,其次要能解決MAC/IOS相關的技術問題,多語言的問題需要通過翻譯API翻譯成英語再嘗試給出解決方案。

知識庫的構成

任何智能客服如果沒有足夠的知識庫支撐,即使它的算法再強大也不行。所以我們把很多MAC相關的網站抓下來塞進我們的數據庫中。

各種爬蟲

StackExcangeApple分論壇(公開數據源)、Apple Discussion、Mac world、WikiHow…

文檔搜索

當用戶問題出現的時候,我們如何從文檔知識庫中找出我們需要的東西?我們之前嘗試過直接使用ES,但是距離語義還是太遠了,效果并不好。



WMD也有明顯缺點,它的算法復雜度非常高,計算速度很慢。WMD不是銀彈,即使WMD之后也可能會得到一些不太好的結果。


我們的知識庫會先經過ES過濾一層。原始的知識庫大概是幾十萬級別,如果直接用WMD計算的話速度會非常慢。ES在一定程度上保證了它的字面差得不會那么離譜,當字面比較相近的時候它還是能匹配出一些東西。



ES具體操作


這個是最原始的mapping,我們基于這個mapping一步步去做優化。

優化:BM25 or TFIDF

采用BM25之后,當一個詞的出現頻率越高,到一定的閾值之后,它的影響是非常小的。

我們做了一個實驗,修改了mapping,分別使用BM25 or TFIDF。從知識庫中隨機選取100個問題和10個回答,讓ES進行查詢,然后對比兩邊的結果。


我們一共進行了10輪,每輪會有100個回答。如上圖可見,兩個算法的重復度大概是91%。

根據實驗得出,BM25的作用還是比較明顯的,最終我們采用了BM25去做相似度的算法。


優化:拼寫檢查與糾錯


我們的方案:Term Suggester + Custom Analyzer


使用Term Suggester

支持直接輸入一句話:How to replace macbookk SSD?


Term Suggester自身調整

設定最小出現次數為3,修改了”string_distance”,把它改為”jarowinkler”。它默認的相似度是基于編輯距離的一些定制化,編輯距離默認會輸出整數。


改進方法

增加用戶行為數據的支撐。Google的算法很大一部分就是有用戶行為數據支撐。

“瞻前顧后”,從我們的角度來說,要考慮前后兩個詞的關系。

優化:輸入標準化


解決方案

首先使用Gensim生成備選詞組,然后使用規則過濾出比較精確的候選詞組。當我們獲得一個正確的詞組后,可以根據候選詞組生成常見的錯誤寫法。最后再實時處理用戶輸入和批量處理ES存儲的知識庫。

規則

規則就是純英文字符,去掉數字。主要是品牌名和版本號。

POS Tagging + 詞性過濾


WHY?

WMD的計算強度比較大,如果我們在輸入詞中能把一些不重要的詞去掉,就可以降低WMD的計算強度。

在我們的一些知識庫中,它的表達方式不一樣。但重要的詞換一個表達方式,能夠提高準確率。

解決方案

當前我們的解決方案用Python NLTK進行分析過濾,輸出每個詞的詞性,ES存儲結果。

我們更為推薦的是使用ES分析、過濾、存儲一條龍解決方案,但是這種解決方案需要自己寫一個ES的Pos插件。

推薦方案的優點

性能:Java實現的東西一般來說要比純Python的快,特別是在比較消耗CPU資源的時候。

簡單:邏輯不需要在ES和Python兩邊同時維護。

節省空間:NLTK的模型文件也比較大,多個Docker鏡像就意味著占用多個內存、磁盤。


優化:同義詞

基于Word2vec的同義詞

人為地定義同義詞很難,我們是基于Word2vec生成“同義詞”。


查詢改寫方案

我們的同義詞方案是通過同義詞進行查詢改寫。


其它一些優化

LTR:Learning to Rank

基于Machine Learning的重排序,模型按照預測的點擊概率進行重新排序。



我今天的分享就到這里,謝謝大家!


總結

以上是生活随笔為你收集整理的当Elasticsearch遇见智能客服机器人的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产欧美一区二区三区视频 | 亚洲精品香蕉 | 日韩欧美亚洲一区二区三区 | 亚洲在线精品视频 | 高h捆绑拘束调教小说 | 亚洲欧美一区在线 | 蜜桃久久久久久 | 男插女视频在线观看 | 国产a国产片 | 国产精品免费无遮挡无码永久视频 | jizzjizz亚洲 | 日韩一区二区久久 | www国产亚洲精品久久麻豆 | 国产一级片免费播放 | 久热在线 | 神马午夜伦理影院 | 美女裸体跪姿扒开屁股无内裤 | 亚色在线| 一区二区三区四区在线视频 | 欧美a在线 | 成人免费视频毛片 | 欧美性猛交xxxx乱大交蜜桃 | 青青草国产精品视频 | 爱福利视频一区 | 欧美黄色网 | 爱情岛论坛亚洲线路一 | 啪啪在线视频 | 原神淫辱系列同人h | www亚洲视频 | 亚洲青涩| 2023毛片| 国产精品久久久久野外 | 欧美色图片区 | 第一色影院 | 少妇精品一区二区 | 自拍偷拍亚洲天堂 | 日本一级片在线观看 | 日本狠狠操 | av不卡免费在线观看 | 香蕉国产精品视频 | 亚洲精品在线中文字幕 | 黄色片在线免费观看视频 | 一级做a爱片性色毛片 | 欧美日韩在线视频一区二区 | 成年人网站在线 | 久久久久国产一区二区三区潘金莲 | 成人欧美一区二区三区黑人冫 | 国产午夜毛片 | 国产精品白丝喷水在线观看 | 国产野外作爱视频播放 | 97国产成人| 日韩欧美有码 | 国产又黄又大又粗视频 | 国产裸体永久免费无遮挡 | 高潮毛片无遮挡免费看 | 99国产精品久久久久99打野战 | 中文字幕视频免费 | 欧美日韩激情在线一区二区三区 | 亚洲蜜臀av| 在线涩涩| 色www| 男人猛进女人爽的大叫 | 日韩欧美国产一区二区 | 日韩少妇| 成人爱爱 | 性网爆门事件集合av | 欧美一级网 | 奇米四色在线观看 | 91久久久久| 国产婷婷色| 九九九色 | 性欧美巨大 | 精品一区二区三区国产 | 精品人妻无码在线 | 亚洲成人中文字幕在线 | 欧美一区二区三区观看 | av日韩不卡| 精品中文视频 | av在线浏览 | 激情涩涩| 亚洲av综合色区无码一区 | 快射视频网站 | 欧美黑人性猛交xxxx | 欧美一区二区三区啪啪 | 在线观看高清视频 | 一级特黄免费视频 | 毛片网站在线播放 | 亚洲成人久久久 | 日日射夜夜操 | 日日干夜夜撸 | 怡红院一区二区 | 人人妻人人澡人人爽久久av | 日韩女优在线播放 | 岛国av免费看 | 日本一区二区三区网站 | 国产日韩激情 | 6080午夜| 欧洲黄色片 | 欧美人与禽猛交乱配 |