當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于cnn的短文本分类_NLP.TM[15] | 短文本相似度CNN_SIM

發布時間：2024/10/8 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了基于cnn的短文本分类_NLP.TM[15] | 短文本相似度CNN_SIM 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

【NLP.TM】

本人有關自然語言處理和文本挖掘方面的學習和筆記，歡迎大家關注。

往期回顧：

NLP.TM | 命名實體識別基線 BiLSTM+CRF(上)
NLP.TM | tensorflow做基礎的文本分類
NLP.TM | 再看word2vector
NLP.TM | GloVe模型及其Python實現
NLP.TM | 我的NLP學習之路

今天和大家分享一篇有關文本相似度的經典文章。

Severyn A , Moschitti A . Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks[C]. the 38th International ACM SIGIR Conference. ACM, 2015.

有關實現，幸運地，我在github上找到了一個方案，大家可以參考，此處我就不談代碼而主要談論文內容啦：

https://github.com/zhangzibin/PairCNN-Ranking

懶人目錄：

文本相似度
論文詳解
- 研究背景
- 學習排序
- 主體模型
- 實驗結果與結論?

文本相似度

先來簡單介紹一下文本相似度，文本相似度是NLP下的一個分支問題，用于衡量兩段文本的相似度，在搜索、問答、閱讀理解等方面有很廣泛的應用。傳統的簡單方法是通過詞袋模型求距離來計算，但是這種方式是針對詞匯級別的，同義詞等都很難識別，而后又有了embedding模型文本句向量求相似度的方法，目前在一些場景其實也有使用，但是仍舊不是最好的方法，主要因為這個相似度的大小無法主觀控制，類似的內容"我想吃肯德基"和"我想吃KFC”之類的可能無法直接識別，所以嘗試使用監督學習就成了一個重要思路，通過監督學習的方式就能夠有效控制相似度的計算。

從這個角度，監督學習實質上是一種人為定義，然后通過構造函數逼近的方式進行計算和轉化，此處，我們對一個匹配對，假設為"query-document"，我們可以認為給他們標注一個相似度，例如"0"表示不相似，"1"表示相似，然后就可以把兩個文本放入模型中即可進行模型計算，這就是基于監督學習的相似度計算，其實這個思想能用在很多領域，通過構造城監督學習的方式來提升對某個問題的掌控能力，這也是監督學習目前比較流行的一個原因吧。

論文詳解

研究背景

文章本身是從LTR(learning to rank)的角度去討論的，談及文本相似度的計算，主要討論了基于句法和語義特征的文本相似度的優缺點，優點在于準確性不錯，但是缺點在于對外部知識甚至是知識庫的依賴導致運算速度等受到限制，而深度學習的方法則更具優勢，結合embedding等方式能降低對外部知識，尤其是結構化知識的依賴。

學習排序

文章對LTR進行了簡單的概述。

LTR(Learning to rank)是一個研究排序的具體問題，在現實中已經有廣泛應用，例如推薦系統中的排序、搜索系統中的排序等，該問題的解決方法被分為3類，pointwise、pairwise和listwise。

pointwise是對每個待排序的條目進行打分，根據大分大小進行排序，現行推薦系統的CTR預估就是目前一個比較典型的pointwise方法。

pairwise是指，兩兩對比待排序條目，然后根據對比結果進行重排序。

listwise是指，以待排序列表整體為單位進行的排序方法。

主體模型

整個模型其實可以用文中的一張圖簡要表示。

對于兩套文本的輸入，很基本的采用embedding方案將文本轉化為句子矩陣(此處文章用的是w2v)。

然后用卷積+池化的方法進行特征提取，卷積一塊沒使用1維卷積，而是用2維卷積的方式體現bi-gram甚至tri-gram。

卷積+池化后實質上兩個句子已經轉為了兩個句向量，句向量就可以開始進行相似度衡量了，這塊應該是我覺得的從本文學到最大的點了。文中構造一個相似矩陣M，用于計算兩者的相似度，這個相似矩陣M。

然后，將計算得到的相似度、兩個句向量、以及額外特征進行拼接組合，得到一個向量，這個向量內涵蓋了相似度、query句向量、document句向量以及額外特征4各方面信息，通過全連接層計算后最終到達輸出層，整個深度學習模型完成。

訓練使用的損失函數是分類常用的交叉熵損失函數，配以L2正則，用adadelta進行訓練。

實驗結果與結論

其實實驗結果本身不重要，重要的是實驗結果中體現的現象以及作者的解釋，根據實驗結果以及作者的討論，本模型的特點主要如下：

不需要手動特征工程，也幾乎不需要預處理和外部資源
在多個準確性指標下性能提升，P@30、MAP
對較好的embedding方案有一定的依賴性

總結

以上是生活随笔為你收集整理的基于cnn的短文本分类_NLP.TM[15] | 短文本相似度CNN_SIM的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：小额美元在哪里兑换人民币
下一篇： mybatis 动态字段与表中不一样_m