當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

（pytorch-深度学习）语言模型-学习笔记

發布時間：2024/8/23 pytorch 42 豆豆

生活随笔收集整理的這篇文章主要介紹了（pytorch-深度学习）语言模型-学习笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

語言模型

自然語言處理中最常見的數據是文本數據。我們可以把一段自然語言文本看作一段離散的時間序列。

假設一段長度為 $T$ 的文本中的詞依次為 $w1,w2,…,wTw_1, w_2, \ldots, w_T$ ，那么在離散的時間序列中：

$w_t$ （ $\leq t \leq T$ ）可看作在時間步（time step） $t$ 的輸出或標簽。

給定一個長度為 $T$ 的詞的序列 $w1,w2,…,wTw_1, w_2, \ldots, w_T$ ，語言模型將計算該序列的概率：
$P(w1,w2,…,wT)P(w_1, w_2, \ldots, w_T)$

語言模型可用于提升語音識別和機器翻譯的性能。

語言模型的計算方式

假設序列 $w1,w2,…,wTw_1, w_2, \ldots, w_T$ 中的每個詞是依次生成的，即有：
$P(w1,w2,…,wT)=∏t=1TP(wt∣w1,…,wt?1).P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}).$
這表示所有的詞出現的概率只與其前面有哪些詞有關

例如，一段含有4個詞的文本序列的概率為：
$P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3).P(w_1, w_2, w_3, w_4) = P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3).$

一個詞在給定前幾個詞的情況下的條件概率就是語言模型參數

詞的概率可以通過該詞在訓練數據集中的相對詞頻來計算，例如， $P(w_1)$ 可以計算為 $w_1$ 在訓練數據集中的詞頻（詞出現的次數）與訓練數據集的總詞數之比。

根據條件概率定義，一個詞在給定前幾個詞的情況下的條件概率也可以通過訓練數據集中的相對詞頻計算。例如， $P(w2∣w1)P(w_2 \mid w_1)$ 可以計算為 $w_1, w_2$ 兩詞相鄰的頻率與 $w_1$ 詞頻的比值，因為該比值即 $P(w_1, w_2)$ 與 $P(w_1)$ 之比。

$n$ 元語法

當序列長度增加時，計算和存儲多個詞共同出現的概率的復雜度會呈指數級增加。 $n$ 元語法通過馬爾可夫假設（雖然并不一定成立）簡化了語言模型的計算。

這里的馬爾可夫假設是指一個詞的出現只與前面 $n$ 個詞相關，即 $n$ 階馬爾可夫鏈（Markov chain of order $n$ ）。

如果 $n = 1$ ，那么有 $P(w3∣w1,w2)=P(w3∣w2)P(w_3 \mid w_1, w_2) = P(w_3 \mid w_2)$ 。

如果基于 $n ? 1$ 階馬爾可夫鏈，我們可以將語言模型改寫為：
$P(w1,w2,…,wT)≈∏t=1TP(wt∣wt?(n?1),…,wt?1).P(w_1, w_2, \ldots, w_T) \approx \prod_{t=1}^T P(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}) .$

很容易理解：

當 $n$ 較小時， $n$ 元語法往往不準確。
而當 $n$ 較大時， $n$ 元語法需要計算并存儲大量的詞頻和多詞相鄰頻率，計算復雜度會很高。

最重要的工作是找到一個方法在語言模型中更好地平衡以上這兩點，設置較為合適的 $n$ 的取值

總結

以上是生活随笔為你收集整理的（pytorch-深度学习）语言模型-学习笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： retinex 的水下图像增强算法_图像
下一篇：轻量级人脸识别算法