nc65语义模型设计_文本匹配方法系列––多维度语义交互匹配模型
摘要
本文基于接著多語義匹配模型[1]和BERT匹配模型[2]介紹一些多維度語義交互匹配模型,包括2017 BiMPM模型[3]和騰訊出品的2018 MIX[4]。這些方法的核心特征都是在多語義網絡的基礎上,從多視角提出新增特征維度,新增多信道信息交叉,構造attention等方式,而后拼接特征或者通過卷積變換通道方式整合特征,一般效果都會超過之前介紹的ESIM模型[1]。本文結合實際使用情況進行小結介紹。
1 BiMPM模型[3]
BiMPM模型全稱 Bilateral multi-perspective matching model, 為2017IJCAI論文。圖1是模型網絡框架圖,其基本繼承多語義模型多種方法的基本思想,采用Bi-LSTM來構建表示層。同時,采用了含參數的方式參與匹配:
其中算不得新奇的一種有效手法是:BiMPM 使用詞級別和字符級別的詞向量,使得文本語義表示更加充分【說明:這個還是比較常見的,實際應用還可以自行構建千萬級的無標簽數據先訓練一個字符以及詞語的word2vec模型,作為模型embedding的初始化,效果會更好】
下面詳細介紹其匹配層的構造如圖2,其余基本操作可參見本系列前述文章。這篇文章的特點在于充分利用了句子表示的語義:1、雙邊,對每一個step的輸出進行從p到q和從q到p的兩兩配對計算;2、多角度,在考慮句子間的交互關系時采用了4種不同的方式。
圖2 BIMPM模型匹配層構造(1)Full-Matching.:如圖2(a)所示是一個句子的表示即LSTM最后隱層輸出跟另一句的每個單詞輸出作匹配,前向的LSTM是最后一個,后向的LSTM是第一個。
(2)Maxpooling-Matching:如圖2(b)句子P與另一個句子Q每一個隱藏層的輸出作匹配,取最大值(最大池化)。
(3)Attentive-Matching:如圖2(c)利用句子P中單詞的embedding和另一個句子Q的各個單詞的embeddings分別計算余弦相似度,然后用softmax歸一化做成attention權重,加權求和再進行帶參余弦相似度計算。【就有點類似ESIM的思想】
(4)Max-Attentive-Matching:如圖2(d)所示,與Attentive-Matching相似,先計算出attention的權重,取其中權重最大的而不是加權求和,做相似度匹配。
2 MIX模型[4]
騰訊出品必屬精品,2018KDD SOTA論文MIX: Multi-Channel Information Crossing for Text Matching 是來自騰訊 MIG 移動瀏覽產品部和阿爾伯塔大學的研究者提出一種用于文本匹配的新模型 MIX,這是一個多信道信息交叉模型;騰訊使用有實際業務場景驗證:在 QQ 瀏覽器搜索直達業務使用中也表現出了優秀的性能,相對提升點擊率 5.7%,所以理論實踐都倍兒棒。以下做一些介紹。
MIX 模型組合使用全局匹配和局部匹配技術,對兩個文本片段之間的相關性進行建模,MIX 模型能夠有層次、多維度地描繪文本匹配問題的本質,圖3是其示意圖。
圖3 MIXMIX模型特點如下:
(1)如圖 3左上方Sentence B所發出的三個箭頭所示,為了考慮到單個詞語匹配過程中存在的不準確性,句子被解析成不同粒度的文本片段,如一元分詞、二元分詞和三元分詞。用這種方式,MIX 通過找到文本片段最合適的語義表征(可以是單詞、短語或詞組)來改善局部匹配的準確率;
(2)充分利用attention機制,其權重矩陣設計非常優秀,研究者提取語法信息,如相對權重和詞性標注,據此在注意力信道中設計注意力矩陣,以封裝豐富的結構模式,而不是簡單的隨機矩陣。文中使用的用詞的idf表示的詞權重attention、Part-of-Speech(PoS)權重信息以及詞語所在的位置權重 均有其直接的意義。
(3)融合多通道,形成的4維矩陣而不是三維,使用3D卷積來融合多通道特征,其做法基本與圖像領域操作一致,故而有人稱之為矩陣匹配。
3 應用
BIMPM模型論文中給出的結果如圖4所示,實際工業數據效果會在80%左右,一般比ESIM高一些。需要提示的是,其訓練速度也是非常的慢,其attention所帶來的時耗并不亞于ESIM模型,一般數百萬數據訓練需要一周以上,實際使用需要謹慎選擇。
圖4 BIMPM模型效果展示而關于MIX模型其效果實際工業數據不會低于ESIM和bimpm模型,應用中的問題是句子被解析以及多種權重構造輸入其實也是一個費勁的事情,實際應用可以根據需要減少其中一部分。
圖5 MIX模型效果4 結語
本文介紹的兩篇多維度匹配文章,總的來說核心思想還是多維度多視角進行交互計算,充分利用交互相似性構建attention,充分利用多種NLP領域有意義的做法構建權重,通過拼接或者卷積變換通道的方式進行特征合并,無出其外。
同時回首整個系列做法,BI-LSTM模型特點被充分應用,越往后模型越復雜訓練時間也會越長。但是這些模型并未結合預訓練(如BERT或者早一些的GPT模型),也并未應用transformer機制,所以可見這個方向仍然還有提升空間,本人認為這是未來的一個很好的繼續研究方向。
參考文獻
[1]多語義匹配模型:
debuluoyi:文本匹配方法系列––多語義匹配模型?zhuanlan.zhihu.com[2]BERT匹配模型:
debuluoyi:文本匹配方法系列––BERT匹配模型?zhuanlan.zhihu.com[3]BiMPM: Wang, Z., Hamza, W., & Florian, R. (2017). Bilateral multi-perspective matching for natural language sentences.arXiv preprint arXiv:1702.03814.
[4]騰訊MIX: Chen, H., Han, F. X., Niu, D., Liu, D., Lai, K., Wu, C., & Xu, Y. (2018, July). Mix: Multi-channel information crossing for text matching. InProceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining(pp. 110-119). ACM.
【文本匹配系列終于寫完了!基本把本人實際做過的都總結了一遍。
下一個系列是 知識圖譜系列】
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的nc65语义模型设计_文本匹配方法系列––多维度语义交互匹配模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 十四五规划对郑州房价的影响
- 下一篇: 百米路由器2登陆地址_女孩子也要会的无线