當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

智能工单处理

發(fā)布時(shí)間：2023/12/31 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了智能工单处理小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

智能工單處理是團(tuán)隊(duì)基于自然語(yǔ)言處理技術(shù)和搜索引擎技術(shù)提升沃工單處理效率，提高支撐滿意度的運(yùn)維工具。
沃工單系統(tǒng)一個(gè)完整的工單生命周期如下圖所示，包括工單產(chǎn)生、派送、處理、歸檔四個(gè)周期。智能工單處理主要用于工單處理環(huán)節(jié)：當(dāng)在沃工單系統(tǒng)中錄入問(wèn)題后，將類似問(wèn)題的解決方案推薦給處理人參考
1.1 粗排策略
粗排策略跟一般的搜索引擎非常類似，主要技術(shù)包括粗細(xì)粒度分詞、詞重要性計(jì)算、核心詞識(shí)別、命名實(shí)體識(shí)別、語(yǔ)義歸一等相關(guān)技術(shù)，主要是為了在粗排階段盡可能地把相關(guān)問(wèn)題進(jìn)行召回。
1) 詞重要性計(jì)算：通過(guò)計(jì)算重要性，表示問(wèn)題的詞匯權(quán)重越高，在召回時(shí)命中這些詞匯的候選集越有可能被召回。如：“沃家庭和沃商務(wù)的主號(hào)碼是什么?”，在這個(gè)問(wèn)題中，“主號(hào)碼;沃商務(wù);沃家庭”是高權(quán)重的詞，“什么”是較低權(quán)重的詞；因此越符合“主號(hào)碼;沃商務(wù);沃家庭”的答案越有可能被召回。
2) 核心詞識(shí)別：核心詞就是候選集中必須相關(guān)的詞。如“已驗(yàn)證的普票,提示付款信息不符,需更改銷貨單位名稱”，核心詞是“更改”、“銷貨單位名稱”，如果候選集中沒(méi)有這兩個(gè)相關(guān)的詞，如“更改金額”，“填寫銷貨單位名稱”，都是不符合問(wèn)題需求的。
3) 命名實(shí)體識(shí)別：通過(guò)命名實(shí)體識(shí)別，能協(xié)助識(shí)別出問(wèn)題答案中的核心詞，也可以對(duì)核心專有名詞進(jìn)行重要性加權(quán)，輔助搜索引擎提升召回效果。
4) 語(yǔ)義歸一：同一個(gè)問(wèn)題可能有很多種問(wèn)法，如“鎖定工號(hào)如何解除”、“工號(hào)鎖定處理方法”，實(shí)際上描述的是一個(gè)問(wèn)題。通過(guò)語(yǔ)義歸一處理可擴(kuò)大召回。
1.2 精排策略
通過(guò)粗排，搜索引擎已經(jīng)返回了一大批可能相關(guān)的結(jié)果，比如500個(gè)，如何從這500個(gè)問(wèn)題中找到最符合問(wèn)題的一個(gè)或者幾個(gè)，非常考驗(yàn)算法精度。沃工單問(wèn)題方案推薦系統(tǒng)會(huì)通過(guò)語(yǔ)義和深度學(xué)習(xí)的方法尋找最匹配的答案。
1) 基于句子相似度的算法
詞向量有個(gè)有趣的特性，通過(guò)兩個(gè)詞向量的減法能夠計(jì)算出兩個(gè)詞的差異，這些差異性可以應(yīng)用到語(yǔ)義表達(dá)中。如：vec(Berlin) – vec(Germany) = vec(Paris) – vec(France)；通過(guò)這個(gè)特性能夠用來(lái)計(jì)算句子的相似度。假設(shè)兩個(gè)詞xi, xj之間的距離為

，這可以認(rèn)為是xi轉(zhuǎn)換到xj的代價(jià)。可以將句子用詞袋模型

表示，模型中某個(gè)詞i的權(quán)重為

，其中ci是詞i在該句子中出現(xiàn)的次數(shù)。設(shè)置

為一個(gè)轉(zhuǎn)換矩陣，Tij表示句子d中詞i有多少權(quán)重轉(zhuǎn)換成句子d’中的詞j，如果要將句子d完全轉(zhuǎn)換成句子d’，所花費(fèi)的代價(jià)計(jì)算如下：

如果用Xd表示句子中的詞向量通過(guò)權(quán)重di進(jìn)行加權(quán)平均的句向量，可以推導(dǎo)出，句子轉(zhuǎn)換代價(jià)的下限是兩個(gè)句向量的歐式距離。

一般這個(gè)下限表示兩個(gè)短句子相似的程度已經(jīng)足夠了，如果需要通過(guò)完全最優(yōu)化的方法計(jì)算

的值，可以通過(guò) EMD solver算法計(jì)算。
2) 基于深度學(xué)習(xí)計(jì)算問(wèn)答匹配程度
基于句向量的距離計(jì)算句子相似度，可以cover大部分的case，但在句子表面相似，但含義完全不同的情況下就會(huì)出現(xiàn)一些問(wèn)題，比如“我喜歡冰淇淋”和“我不喜歡冰淇淋”，分詞為 “我”，“不”，“喜歡”，“冰淇淋”，兩個(gè)句子的相似度是很高的，僅一字“不”字不同，導(dǎo)致兩個(gè)句子意思完全相反。要處理這種情況，需要使用深度模型抓住句子的局部特征進(jìn)行語(yǔ)義識(shí)別。

如圖所示，Q是用戶的問(wèn)題，D是返回的各個(gè)答案。對(duì)于某一個(gè)問(wèn)答句子，首先將它映射到500k大小的BOW向量TermVector里。因?yàn)門ermVector是稀疏矩陣，可以使用WordHashing或者其他Embedding的方法將其映射到30k大小的詞向量空間里。接下來(lái)的l1, l2,l3層就是傳統(tǒng)的MLP網(wǎng)絡(luò)，通過(guò)神經(jīng)網(wǎng)絡(luò)得到query和document的語(yǔ)義向量。計(jì)算出（D，Q）的cosinesimilarity后，用softmax做歸一化得到的概率值是整個(gè)模型的最終輸出，該值作為監(jiān)督信號(hào)進(jìn)行有監(jiān)督訓(xùn)練。模型通過(guò)挖掘搜索點(diǎn)擊日志構(gòu)造的query和對(duì)應(yīng)的正負(fù)document樣本（點(diǎn)擊/不點(diǎn)擊），輸入DSSM進(jìn)行訓(xùn)練。
3) 基于卷積神經(jīng)網(wǎng)絡(luò)計(jì)算問(wèn)答匹配程度
句子中的每個(gè)詞，單獨(dú)來(lái)看有單獨(dú)的某個(gè)意思，結(jié)合上下文時(shí)可能意思不同；比如“我買了一臺(tái)蘋果，很好用”和“我買了個(gè)蘋果，很好吃”，這兩句話里的“蘋果”意思就完全不一樣。通過(guò)基于卷積神經(jīng)網(wǎng)絡(luò)的隱語(yǔ)義模型，我們能夠捕捉到這類上下文信息。

如圖所示，先通過(guò)滑窗構(gòu)造出query或document中的一系列n-gramterms，比如圖中是Word-n-gramlayer中的trigram；然后通過(guò)word-hashing或者embedding將trigramterms表示為90k的向量；通過(guò)卷積向量Convolutionmatrix Wc對(duì)每個(gè)letter-trigram向量作卷積，可以得到300維的卷積層Convolutionallayer；最后通過(guò)max-pooling取每個(gè)維度在Convolutionallayer中的最大值，作為文本的隱語(yǔ)義向量。模型也是通過(guò)挖掘搜索日志進(jìn)行有監(jiān)督訓(xùn)練。
通過(guò)卷積神經(jīng)網(wǎng)絡(luò)，能得到句子中最重要的信息。如下面一些句子，高亮的部分是卷積神經(jīng)識(shí)別的核心詞，它們是在300維的Max-pooling層向量里的5個(gè)最大神經(jīng)元激活值，回溯找到原始句子中的詞組。
microsoft office excel could allow remote code execution
welcome to the apartment office
4) 基于主題模型計(jì)算問(wèn)答匹配程度
短文本一般詞語(yǔ)比較稀疏，如果直接通過(guò)共現(xiàn)詞進(jìn)行匹配，效果可能會(huì)不理想。有研究團(tuán)隊(duì)提出DeepMatch的神經(jīng)網(wǎng)絡(luò)語(yǔ)義匹配模型，通過(guò)（Q, A）語(yǔ)料訓(xùn)練LDA主題模型，得到其topicwords，這些主題詞用來(lái)檢測(cè)兩個(gè)文本是否有語(yǔ)義相關(guān)。該模型還通過(guò)訓(xùn)練不同“分辨率”的主題模型，得到不同抽象層級(jí)的語(yǔ)義匹配（“分辨率”即指定topic個(gè)數(shù)，高分辨率模型的topicwords通常更加具體，低分辨率的topicwords通常更加抽象）。在高分辨率層級(jí)無(wú)共現(xiàn)關(guān)系的文本，可能在低分辨率存在更抽象的語(yǔ)義關(guān)聯(lián)。DeepMatch模型借助主題模型反映詞的共現(xiàn)關(guān)系，可以避免短文本詞稀疏帶來(lái)的問(wèn)題，并且能得到不同的抽象層級(jí)的語(yǔ)義相關(guān)性。

如圖所示，綠色和紫色塊分別表示在同一個(gè)分辨率下不同的主題在X和Y文本中命中的主題詞塊，與上一層分辨率（p-layerII）的主題的關(guān)聯(lián)通過(guò)是否與上一層的主題詞塊有重疊得到。如此通過(guò)多層的主題，能夠構(gòu)建出神經(jīng)網(wǎng)絡(luò)，并使用有監(jiān)督的方式對(duì)相關(guān)權(quán)重進(jìn)行訓(xùn)練。
以上即是智能工單處理系統(tǒng)的粗排和精排所采用的基本策略。而在實(shí)際項(xiàng)目過(guò)程中，需考慮其他因素綜合提升智能工單處理系統(tǒng)的效果。包括：

從工單附件信息中抽取出更多語(yǔ)義特征，包括圖片類的附件，從而更好地表征工單問(wèn)題。

構(gòu)建效果評(píng)估機(jī)制，量化分析方案推薦的準(zhǔn)確性和有效性。

構(gòu)建工單標(biāo)簽分類體系，按照工單問(wèn)題的標(biāo)簽和分類縮小粗排、精排范圍，從而在一定時(shí)間內(nèi)可支撐更復(fù)雜的召回排序運(yùn)算。

總結(jié)

以上是生活随笔為你收集整理的智能工单处理的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

智能

上一篇： Eclipse安装中文语言包
下一篇： Apollo OpenDRIVE和ASA