當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论

發(fā)布時間：2023/12/13 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了 PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

PRML緒論

1.3 模型選擇
1.4 緯度災(zāi)難
1.5 決策論
- 1.5.1最小錯誤分率
- 1.5.2最小化期望損失
- 1.5.3拒絕選項
- 1.5.4推斷和決策
- 1.5.5 回歸問題的損失函數(shù)
1.6 信息論

1.3 模型選擇

模型過復雜會造成過擬合問題，需要通過一些技術(shù)來降低模型的復雜度。
就最大似然而言，可以增加一個懲罰項來補償過于復雜的模型造成的過擬合問題。

赤池信息準則，使式1.73最大,M是模型中可調(diào)節(jié)參數(shù)的數(shù)量：
$lnp(D∣wML)?Mlnp(\mathcal{D}|\bm{w}_ML)-M$

1.73式？是一個變體，被稱作貝葉斯信息準則，但是沒有考慮模型參數(shù)的不確定性。

1.4 緯度災(zāi)難

一個三分類問題畫格子分類。隨著輸入維度的增加會造成的問題：

單元格的數(shù)量會隨輸入空間維度的增加而增加

為了保證單元格不空，訓練數(shù)據(jù)的量需要增加

高維空間中的直覺錯誤：
3. 高維空間中，一個球的體積大部分會聚集在表面附近薄球上
4. 在高緯空間中，高斯分布的概率質(zhì)量會集中在某一半徑的薄球上

1.5 決策論

決策論和概率論結(jié)合：能夠在涉及不確定性的條件下作出最優(yōu)決策。

例如：依據(jù)病人X光片，判斷病人是否得了癌癥，并依據(jù)判斷給出是否需要治療的決定。

概率論如何在決策時起作用

1.5.1最小錯誤分率

需要一個規(guī)則將不同的x分到合適的類別中，按照規(guī)則會把輸入空間分成不同的決策區(qū)域 $Rk\mathcal{R}_k$ 。在 $Rk\mathcal{R}_k$ 中的點將被分為 $Ck\mathcal{C}_k$ 類。

考慮一維數(shù)軸上的兩分類問題，錯分概率為：
$p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78}$

為了使(1.78)式最小，那么可以得到一個決策規(guī)則：如果 $p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)$ 就將x劃分為類別1。也等價于將x 分入到具有最大后驗概率的類別中。

1.5.2最小化期望損失

實際引用中，目標遠比最小化錯誤分類率更加復雜。

就癌癥判斷例子中每種錯誤分類所帶來的決策損失是不同的：健康誤判為有病–多了復查，有病誤判為健康–錯過最佳治療時間。

損失函數(shù)(loss function) 也被稱為代價函數(shù)(cost function):對所有可能的決策或者動作可能產(chǎn)生的損失的一種整體度量。目標是：最小化期望損失。

期望損失的計算：x屬于 $Ck\mathcal{C}_k$ 類，我們將其劃分為 $Cj\mathcal{C}_j$ 類，造成的損失為 $Lkj\mathcal{L}_{kj}$
$E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dx$

得出的結(jié)論還是需要：后驗概率

1.5.3拒絕選項

在類別歸屬相對不確定的時候，避免作出決策是更合適的選擇。這樣會使模型的分類錯誤率降低，這被稱為拒絕選項（reject option）。

癌癥的例子：使用自動化系統(tǒng)來對幾乎沒有懷疑的X光片進行分類，把不易分類的留給人類專家。

一種簡單的拒絕實現(xiàn)方式：引入一個閾值 $θ\theta$ ，拒絕后驗概率 $p(Ck∣x)p(\mathcal{C}_k|x)$ 的最大值小于等 $θ\theta$ 的那些輸入x。

1.5.4推斷和決策

解決決策問題的三種方法：

推斷類條件密度

p(x∣Ck)p(x|\mathcal{C}_k)

,推斷類先驗概率密度

p(Ck)p(\mathcal{C}_k)

,計算后驗概率->決策（生成式模型）。

直接推斷后驗概率

p(Ck∣x)p(\mathcal{C}_k|x)

->決策(判別式模型)。

找到一個判別函數(shù)

f (x)

，直接把輸入x映射到類別標簽中。

三種方法各有優(yōu)缺點。

1.5.5 回歸問題的損失函數(shù)

回到曲線擬合問題：對于每一個輸入x，對應(yīng)目標值t的估計值為y(x), 造成的損失是L(t,y(x))，那么期望損失為：
$E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdt$

L(t,y(x))常用平方損失函數(shù)– $L(t,y(x))=[y(x)-t]^2$ 。我們的目標是選擇合適的y(x)來使 $E[L]\mathbb{E}[L]$ 最小化。形式變分法求解y(x)（不會求）：
$δE[L]δy(x)=2∫{y(x)?t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0$

使用概率的加和規(guī)則和乘積規(guī)則有(對上式子進行移項和相除操作得到)：
$y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}$

$Et[t∣x]\mathbb{E}_t[t|x]$ 符號迷惑，理解成 t 在給定x條件下的期望會更容易理解。 $Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]$

所以y(x)最優(yōu)解就是t的條件期望。

同樣有三種方法來解決回歸問題：

確定p(x,t),計算p(t|x)，依據(jù)1.89式進行積分

推斷p(t|x),依據(jù)1.89式進行積分

直接通過數(shù)據(jù)找到回歸函數(shù)模型y(x)

閔可夫斯基損失函數(shù)–平方損失函數(shù)的推廣
$E[L]q=∫∫∣y(x)?t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdt$

1.6 信息論

信息量的概念：觀察到一個離散型隨機變量時，我們能獲得多少信息？直覺上，低概率事件具有高信息量。尋找一個表達信息量的函數(shù) $h(?)h(\cdot)$ 是p(x)的遞減函數(shù)。且如果有兩個不相關(guān)的事件x,y，觀察到兩個事件同時發(fā)生的信息量應(yīng)該等于兩件事各自發(fā)生時的概率，即 $h (x, y) = h (x) + h (y)$ ,兩件不相關(guān)的事是統(tǒng)計獨立的，因此有 $p (x, y) = p (x) p (y)$ 。容易得出h(x)與p(x)是對數(shù)關(guān)系。因此有（單個隨機變量的信息量）：
$h(x)=-\log_2p(x)$

熵：傳輸隨機變量x的平均信息量為：
$H[x]=?∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)$

非均勻分布的熵比均勻分布的熵要小。

無噪聲編碼定理：熵是傳輸一個隨機變量狀態(tài)值所需比特位的下界。

熵起源于物理學：N個物體放到若干個箱子中，所有的方案數(shù)構(gòu)成乘數(shù)。乘數(shù)通過合適參數(shù)縮放對數(shù)乘數(shù)，且當 $N?>∞N->\infty$ 時，就可以得到自然對數(shù)熵的定義。

離散型隨機變量的熵特性：
熵是非負數(shù)；熵的最小值為0；利用概率歸一化約束，使用拉格朗日乘子法找到熵的最大值為所有的值都相等，且等于 $1M\frac{1}{M}$ 時，熵值最大。M為 $x_i$ 的狀態(tài)總數(shù)。

熵的概念從離散型隨機變量擴展到連續(xù)型隨機變量：將連續(xù)型隨機變量離散化，然后讓 $Δ?>0\Delta->0$ ，得到微分熵的概念：
$?∫p(x)ln?p(x)dx-\int p(x)\ln p(x) dx$
熵的離散形式和連續(xù)形式相差一個 $ln?Δ\ln \Delta$ 在 $Δ?>0\Delta->0$ 的情況下是發(fā)散的。反映一個重要的事實：具體化一個連續(xù)型隨機變量需要大量的比特位。

連續(xù)型隨機變量的熵特性：
最大化微分熵的分布是高斯分布，最大的熵值還由分布的方差決定。隨著方差的增大而增大（越平越大的趨勢還是在的）
$H[x]=12{1+ln?(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}$
微分熵可以為負數(shù)。

條件熵：

**KL散度：**目標分布 $p (x)$ ，近似分布 $q(x∣θ)q(x|\theta)$ –平均附加信息量,比原來的信息量多出來的信息量。KL散度不是一個對稱量。
$KL(p∣∣q)=?∫p(x)ln?{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dx$

**凸函數(shù)：**弦在函數(shù)圖像上,對應(yīng)的函數(shù)的二階導數(shù)為正。
$f(λa+(1?λ)b)<=λf(a)+(1?λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)$

**凹函數(shù)：**弦在函數(shù)圖像的下方，對應(yīng)的二階導數(shù)為負數(shù)
$f (x) = ? f (x)$

利用Jensen 不等式+ $?ln?x-\ln x$ 函數(shù)是凸函數(shù) 證明了KL散度非負數(shù)。因此可以將KL散度看作兩分布之間不相似程度的度量。（解釋性說明）

最大似然等價與最小化**目標分布 $p (x)$ ，近似分布 $q(x∣θ)q(x|\theta)$ 之間的KL散度。

**互信息：**獲知一個隨機變量的值后另一個隨機變量不確定度減少的量。
$I (x, y) = H (x) ? H (x ∣ y) = H (y) ? H (y ∣ x)$

關(guān)鍵概念：
誤差函數(shù)(error function)
泛化能力(generalization)
特征抽取(feature extract)
預處理(pre-processed)
模型選擇(model selection)
模型對比(model comparison)
正則化(regularization)
權(quán)值衰減(weight decay)
收縮(shrinkage)
加和規(guī)則(sum rule)
乘積規(guī)則(product relu)

總結(jié)

以上是生活随笔為你收集整理的PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Mysql服务器线上配置主从同步
下一篇：关于NFS服务器的原理总结和mount挂