日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理之词向量技术(二)

發布時間:2024/9/16 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理之词向量技术(二) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 詞向量技術

詞向量(word2vec)是一種表示自然語言中單詞的方法,即把每個詞都表示為一個N維空間內的點,即一個高維空間內的向量,通過這種方法,把自然語言計算轉換為向量計算。詞向量的基本內容包括:

  • 問題引入
  • 基于統計方法的詞向量
  • 基于語言模型的詞向量

2 問題引入

2.1 向量空間分布的相似性

  • 在計算機中表示詞語時,當詞語轉換為向量之后,應保持詞語之間在空間中具有相似性。

2.2 向量空間子結構和目標

  • 詞語的向量不僅能表示空間分布,還應保證空間子結構一直。
  • 詞向量的最終目標是:詞向量的表示可以作為機器學習、深度學習的輸入和空間表示。

2.3 實現詞向量的挑戰

  • 挑戰一:如何把詞轉換為向量?自然語言單詞是離散信號,比如“香蕉”、“橘子”、“水果”在我們看來就是3個離散的詞。我們應該如何把離散的單詞轉換為一個向量。
  • 挑戰二:如何讓向量具有語義信息?我們知道,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就沒有那么相似,同時,“香蕉”和“食物”,“水果”的相似程度,可能介于“橘子”和“句子”之間。那么,我們該如何讓詞向量具備這樣的語義信息?

3 基于統計方法的詞向量

3.1 OneHotEncoder

  • 獨熱碼,在英文文獻中稱做ont-hot code,直觀來說就是有多少個狀態就有多少比特,而且只有一個比特為1,其他全為0的一種碼制。

3.2 詞袋模型

  • 詞袋模型(Bag of Words,簡稱BoW),即將所有詞語裝進一個袋子里,不考慮其詞法和語序的問題,即每個詞語都是獨立的,把每一個單詞都進行統計,同時計算每個單詞出現的次數。
  • 詞袋模型的三部曲:分詞(tokenizing),統計修訂詞特征值(counting)與標準化(normalizing)。
  • 文檔的向量表示可以直接將各詞的詞向量表示加和。

4 基于語言模型的詞向量

4.1 語言模型的概念

  • N-Gram是一種基于統計語言模型的算法。它的基本思想是將文本里面的內容按照字節進行大小為N的滑動窗口操作,形成了長度是N的字節片段序列。
  • 每一個字節片段稱為gram,對所有gram的出現頻度進行統計,并且按照事先設定好的閾值進行過濾,形成關鍵gram列表,也就是這個文本的向量特征空間,列表中的每一種gram就是一個特征向量維度

4.2 文本離散表示的缺點

  • 詞向量的表示太稀疏,很難捕捉文本的含義
  • n-gram詞序列隨語料庫膨脹太快
  • 各種距離度量都無法滿足語義的內容

總結

以上是生活随笔為你收集整理的自然语言处理之词向量技术(二)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。