日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理(NLP)语义分析--文本分类、情感分析、意图识别

發布時間:2023/12/9 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理(NLP)语义分析--文本分类、情感分析、意图识别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 第一部分:文本分類
    • 一、文本預處理(解決特征空間高維性、語義相關性和特征分布稀疏)
    • 二、文本特征提取
    • 三、分類模型
  • 第二部分:情感分析
    • 一、概述
    • 二、基于情感詞典的情感分類方法
    • 三、基于機器學習的情感分類方法
  • 第三部分:意圖識別
    • 一、概述
    • 二、意圖識別的基本方法
    • 三、意圖識別的難點

轉載來源:https://blog.csdn.net/weixin_41657760/article/details/93163519

第一部分:文本分類

訓練文本分類器過程見下圖:

文本分類問題: 給定文檔p(可能含有標題t),將文檔分類為n個類別中的一個或多個
文本分類應用: 常見的有垃圾郵件識別,情感分析
文本分類方向: 主要有二分類,多分類,多標簽分類
文本分類方法: 傳統機器學習方法(貝葉斯,svm等),深度學習方法(fastText,TextCNN等)
文本分類的處理大致分為文本預處理、文本特征提取、分類模型構建等。和英文文本處理分類相比,中文文本的預處理是關鍵技術。

一、文本預處理(解決特征空間高維性、語義相關性和特征分布稀疏)

1、中文分詞技術
為什么分詞處理?因為研究表明特征粒度為詞粒度遠遠好于字粒度,其大部分分類算法不考慮詞序信息,基于字粒度的損失了過多的n-gram信息。

中文分詞主要分為兩類方法:基于詞典的中文分詞和基于統計的中文分詞。

  • 基于詞典的中文分詞
    • 核心是首先建立統一的詞典表,當需要對一個句子進行分詞時,首先將句子拆分成多個部分,將每一個部分與字典一一對應,如果該詞語在詞典中,分詞成功,否則繼續拆分匹配直到成功。所以字典,切分規則和匹配順序是核心。
  • 基于統計的中文分詞方法
    • 統計學認為分詞是一個概率最大化問題,即拆分句子,基于語料庫,統計相鄰的字組成的詞語出現的概率,相鄰的詞出現的次數多,就出現的概率大,按照概率值進行分詞,所以一個完整的語料庫很重要。
  • 基于理解的分詞方法
    • 基于理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。

    2、去除停用詞
    建立停用詞字典,停用詞主要包括一些副詞、形容詞及其一些連接詞。通過維護一個停用詞表,實際上是一個特征提取的過程,本質 上是特征選擇的一部分。

    二、文本特征提取

    1、詞袋模型

  • 思想:
    • 建立一個詞典庫,該詞典庫包含訓練語料庫的所有詞語,每個詞語對應一個唯一識別的編號,利用one-hot文本表示。
  • 文檔的詞向量維度與單詞向量的維度相同,每個位置的值是對應位置詞語在文檔中出現的次數,即詞袋模型(BOW))

  • 問題:

    • (1)容易引起維度災難問題,語料庫太大,字典的大小為每個詞的維度,高維度導致計算困難,每個文檔包含的詞語數少于詞典的總詞語數,導致文檔稀疏。
    • (2)僅僅考慮詞語出現的次數,沒有考慮句子詞語之間的順序信息,即語義信息未考慮

    2、TF-IDF文本特征提取

    • 利用TF和IDF兩個參數來表示詞語在文本中的重要程度。

    • TF是詞頻:
      指的是一個詞語在一個文檔中出現的頻率,一般情況下,每一個文檔中出現的詞語的次數越多詞語的重要性更大,例如BOW模型一樣用出現次數來表示特征值,即出現文檔中的詞語次數越多,其權重就越大,問題就是在長文檔中 的詞語次數普遍比短文檔中的次數多,導致特征值偏向差異情況。

    • TF體現的是詞語在文檔內部的重要性。

    • IDF是體現詞語在文檔間的重要性

      • 即如果某個詞語出現在極少數的文檔中,說明該詞語對于文檔的區別性強,對應的特征值高,IDF值高,IDFi=log(|D|/Ni),D指的是文檔總數,Ni指的是出現詞語i的文檔個數,很明顯Ni越小,IDF的值越大。
    • 最終TF-IDF的特征值的表達式為:TF-IDF(i,j)=TFij*IDFi

    3、基于詞向量的特征提取模型

    • 想基于大量的文本語料庫,通過類似神經網絡模型訓練,將每個詞語映射成一個定維度的向量,維度在幾十到化百維之間,每個向量就代表著這個詞語,詞語的語義和語法相似性和通過向量之間的相似度來判斷。

    • 常用的word2vec主要是CBOW和skip-gram兩種模型,由于這兩個模型實際上就是一個三層的深度神經網絡,其實NNLM的升級,去掉了隱藏層,由輸入層、投影層、輸出層三層構成,簡化了模型和提升了模型的訓練速度,其在時間效率上、語法語義表達上效果明顯都變好。word2vec通過訓練大量的語料最終用定維度的向量來表示每個詞語,詞語之間語義和語法相似度都可以通過向量的相似度來表示。

    三、分類模型

    1、傳統機器學習方法:
    ? 傳統機器學習算法中能用來分類的模型都可以用,常見的有:NB模型,隨機森林模型(RF),SVM分類模型,KNN分類模型模型。

    2、深度學習文本分類模型

    • fastText模型

      原理: 句子中所有的詞向量進行平均(某種意義上可以理解為只有一個avg pooling特殊CNN),然后直接連接一個 softmax 層進行分類。

    • TextCNN:利用CNN來提取句子中類似 n-gram 的關鍵信息

      模型結構[4]:


      改進: fastText 中的網絡結果是完全沒有考慮詞序信息的,而TextCNN提取句子中類似 n-gram 的關鍵信息。

    • TextRNN

      模型: Bi-directional RNN(實際使用的是雙向LSTM)從某種意義上可以理解為可以捕獲變長且雙向的的 “n-gram” 信息。

      改進: CNN有個最大問題是固定 filter_size 的視野,一方面無法建模更長的序列信息,另一方面 filter_size 的超參調節也很繁瑣。

    • TextRNN + Attention

      模型結構:

      改進:注意力(Attention)機制是自然語言處理領域一個常用的建模長時間記憶機制,能夠很直觀的給出每個詞對結果的貢獻,基本成了Seq2Seq模型的標配了。實際上文本分類從某種意義上也可以理解為一種特殊的Seq2Seq,所以考慮把Attention機制引入近來。

    • TextRCNN(TextRNN + CNN)

      模型結構:

      過程:
      利用前向和后向RNN得到每個詞的前向和后向上下文的表示:

      詞的表示變成詞向量和前向后向上下文向量連接起來的形式:

      再接跟TextCNN相同卷積層,pooling層即可,唯一不同的是卷積層 filter_size = 1就可以了,不再需要更大 filter_size 獲得更大視野。

    第二部分:情感分析

    一、概述

    ? 情感分析是自然語言處理中常見的場景,比如淘寶商品評價,餓了么外賣評價等,對于指導產品更新迭代具有關鍵性作用。通過情感分析,可以挖掘產品在各個維度的優劣,從而明確如何改進產品。比如對外賣評價,可以分析菜品口味、送達時間、送餐態度、菜品豐富度等多個維度的用戶情感指數,從而從各個維度上改進外賣服務。

    ? 情感分析可以采用基于情感詞典的傳統方法,也可以采用基于機器學習的方法。

    二、基于情感詞典的情感分類方法

    1、基于詞典的情感分類步驟

    ? 基于情感詞典的方法,先對文本進行分詞和停用詞處理等預處理,再利用先構建好的情感詞典,對文本進行字符串匹配,從而挖掘正面和負面信息。如圖:

    2、情感詞典
    ? 情感詞典包含正面詞語詞典、負面詞語詞典、否定詞語詞典、程度副詞詞典等四部分。一般詞典包含兩部分,詞語和權重。

    情感詞典在整個情感分析中至關重要,所幸現在有很多開源的情感詞典,如BosonNLP情感詞典,它是基于微博、新聞、論壇等數據來源構建的情感詞典,以及知網情感詞典等。當然也可以通過語料來自己訓練情感詞典。

    3、情感詞典文本匹配算法
    ? 基于詞典的文本匹配算法相對簡單。逐個遍歷分詞后的語句中的詞語,如果詞語命中詞典,則進行相應權重的處理。正面詞權重為加法,負面詞權重為減法,否定詞權重取相反數,程度副詞權重則和它修飾的詞語權重相乘。如圖:

    利用最終輸出的權重值,就可以區分是正面、負面還是中性情感了。
    4、缺點
    ? 基于詞典的情感分類,簡單易行,而且通用性也能夠得到保障。但仍然有很多不足:

    • 精度不高,語言是一個高度復雜的東西,采用簡單的線性疊加顯然會造成很大的精度損失。詞語權重同樣不是一成不變的,而且也難以做到準確。
    • 新詞發現,對于新的情感詞,比如給力,牛逼等等,詞典不一定能夠覆蓋。
    • 詞典構建難,基于詞典的情感分類,核心在于情感詞典。而情感詞典的構建需要有較強的背景知識,需要對語言有較深刻的理解,在分析外語方面會有很大限制。

    三、基于機器學習的情感分類方法

    即為分類問題,文本分類中的各方法均可采用。

    第三部分:意圖識別

    一、概述

    意圖識別是通過分類的辦法將句子或者我們常說的query分到相應的意圖種類。

    ?舉一個簡單的例子,我想聽周杰倫的歌,這個query的意圖便是屬于音樂意圖,我想聽郭德綱的相聲便是屬于電臺意圖。做好了意圖識別以后對于很多nlp的應用都有很重要的提升,比如在搜索引擎領域使用意圖識別來獲取與用戶輸入的query最相關的信息。舉個例子,用戶在查詢"生化危機"時,我們知道"生化危機"既有游戲還有電影,歌曲等等,如果我們通過意圖識別發現該用戶是想玩"生化危機"的游戲時,那我們直接將游戲的查詢結果返回給用戶,就會節省用戶的搜索點擊次數,縮短搜索時間,大幅提高用戶的體驗。

    ?再舉一個目前最火熱的聊天機器人來說明一下意圖識別的重要性。目前各式各樣的聊天機器人,智能客服,智能音箱所能處理的問題種類都是有限制的。比如某聊天機器人目前只有30個技能,那么用戶向聊天機器人發出一個指令,聊天機器人首先得根據意圖識別將用戶的query分到某一個或者某幾個技能上去,然后再進行后續的處理。 做好了意圖識別以后,那種類似于電影場景里面人機交互就有了實現的可能,用戶向機器發來的每一個query,機器都能準確的理解用戶的意圖,然后準確的給予回復。人與機器連續,多輪自然的對話就可以借此實現了。

    二、意圖識別的基本方法

    1、基于詞典以及模版的規則方法:不同的意圖會有的不同的領域詞典,比如書名,歌曲名,商品名等等。當一個用戶的意圖來了以后我們根據意圖和詞典的匹配程度或者重合程度來進行判斷,最簡單一個規則是哪個domain的詞典重合程度高,就將該query判別給這個領域。

    2、基于查詢點擊日志:如果是搜索引擎等類型業務場景,那么我們可以通過點擊日志得到用戶的意圖。

    3、基于分類模型來對用戶的意圖進行判別:因為意圖識別本身也是一個分類問題,其實方法和分類模型的方法大同小異。

    三、意圖識別的難點

    ? 意圖識別工作最大的難點其實是在于標注數據的獲取。目前標注數據的獲取主要來自兩方面,一方面是專門的數據標注團隊對數據進行標注,一方面是通過半監督的方式自動生成標注數據。

    總結

    以上是生活随笔為你收集整理的自然语言处理(NLP)语义分析--文本分类、情感分析、意图识别的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 香蕉国产精品视频 | 成人爽a毛片一区二区 | 亚欧在线 | 一级片大全 | 久久精品欧美一区 | 性欧美日本 | 日韩黄色免费电影 | 国产日韩精品在线观看 | 日韩精品乱码久久久久久 | 熟睡人妻被讨厌的公侵犯 | 色综合五月婷婷 | 无码av免费毛片一区二区 | 91刺激视频 | av黄色大片 | 嫩草视频在线免费观看 | 羞羞动漫免费观看 | 熟女国产精品一区二区三 | 国产精选第一页 | 狠狠躁| 天天舔天天舔 | 午夜精品久久久久久久无码 | 国产精品一区二区三区免费看 | 亚洲码欧美码一区二区三区 | 大战熟女丰满人妻av | 亚洲国产一区在线观看 | 五月天激情四射 | 中文字幕69页 | 精品熟女一区二区三区 | 在线观看欧美一区二区三区 | 大桥未久av在线 | av中文字幕网 | 超级碰在线视频 | 美女露出让男生揉的视频 | 久久久夜夜 | 亚洲综合免费视频 | 视频在线观看你懂的 | 久久少妇视频 | 亚洲三级久久 | 美女的隐私免费看 | 亚洲午夜无码av毛片久久 | 精品人妻中文无码av在线 | 男人舔女人下部高潮全视频 | 亚洲一区小说 | 日韩av电影一区 | 日韩免 | 性av免费 | 日韩二级片| 中国黄色一级视频 | 中文字幕在线观看91 | 已婚少妇美妙人妻系列 | 国产精品一区二区久久 | 高清国产在线观看 | 午夜天堂av| 日韩激情电影在线 | jizz亚洲女人高潮大叫 | 国产伦精品一区二区三区视频1 | 91亚洲综合| 欧美日韩人妻一区二区 | 久草新免费| 丰满的女人性猛交 | 亚洲hh | 日日爱666 | 国模无码视频一区二区三区 | 偷偷操99| 91精品免费在线 | 国产精品无码一本二本三本色 | 欧美一区二区三区婷婷 | 亚洲av无码乱码国产精品久久 | 26uuu欧美日本 | 亚洲av乱码久久精品蜜桃 | 国产一区中文字幕 | 91久久电影 | 天天干人人| 国产这里只有精品 | 精品国产乱码久久久久久影片 | 日本少妇b | 日韩一区二区三区电影 | 人妖性生活视频 | 国产美女流白浆 | 国产最新网址 | 中国免费看的片 | 制服丝袜一区二区三区 | 免费a网址 | 91精品人妻一区二区三区 | 日韩大片一区 | 亚洲精品456 | 3d动漫啪啪精品一区二区中文字幕 | 欧洲精品视频在线观看 | 精品亚洲乱码一区二区 | 欧美另类亚洲 | 欧美色图在线播放 | brazzers猛女系列| 欧美爱爱一区二区 | 亚洲精品偷拍视频 | 秋霞亚洲| 成人精品区 | 午夜激情电影在线观看 | 入禽太深免费视频 | 亚洲制服一区 |