日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论

發(fā)布時間:2023/12/13 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

PRML緒論

  • 1.3 模型選擇
  • 1.4 緯度災(zāi)難
  • 1.5 決策論
    • 1.5.1最小錯誤分率
    • 1.5.2最小化期望損失
    • 1.5.3拒絕選項
    • 1.5.4推斷和決策
    • 1.5.5 回歸問題的損失函數(shù)
  • 1.6 信息論

1.3 模型選擇

模型過復雜會造成過擬合問題,需要通過一些技術(shù)來降低模型的復雜度。
就最大似然而言,可以增加一個懲罰項來補償過于復雜的模型造成的過擬合問題。

赤池信息準則,使式1.73最大,M是模型中可調(diào)節(jié)參數(shù)的數(shù)量:
lnp(D∣wML)?Mlnp(\mathcal{D}|\bm{w}_ML)-Mlnp(DwM?L)?M

1.73式?是一個變體,被稱作貝葉斯信息準則,但是沒有考慮模型參數(shù)的不確定性。

1.4 緯度災(zāi)難

一個三分類問題畫格子分類。隨著輸入維度的增加會造成的問題:

  • 單元格的數(shù)量會隨輸入空間維度的增加而增加
  • 為了保證單元格不空,訓練數(shù)據(jù)的量需要增加
  • 高維空間中的直覺錯誤:
    3. 高維空間中,一個球的體積大部分會聚集在表面附近薄球上
    4. 在高緯空間中,高斯分布的概率質(zhì)量會集中在某一半徑的薄球上

    1.5 決策論

    決策論和概率論結(jié)合:能夠在涉及不確定性的條件下作出最優(yōu)決策。

    例如:依據(jù)病人X光片,判斷病人是否得了癌癥,并依據(jù)判斷給出是否需要治療的決定。

    概率論如何在決策時起作用

    1.5.1最小錯誤分率

    需要一個規(guī)則將不同的x分到合適的類別中,按照規(guī)則會把輸入空間分成不同的決策區(qū)域Rk\mathcal{R}_kRk?。在Rk\mathcal{R}_kRk?中的點將被分為Ck\mathcal{C}_kCk?類。

    考慮一維數(shù)軸上的兩分類問題,錯分概率為:
    p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78} p(mistake)=p(xR1?,C2?)+p(xR2?,C1?)=R1??p(x,C2?)dx+R2??p(x,C1?)dx(1.78)

    為了使(1.78)式最小,那么可以得到一個決策規(guī)則:如果p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)p(x,C1?)>p(x,C2?)就將x劃分為類別1。也等價于將x 分入到具有最大后驗概率的類別中。

    1.5.2最小化期望損失

    實際引用中,目標遠比最小化錯誤分類率更加復雜。

    就癌癥判斷例子中每種錯誤分類所帶來的決策損失是不同的:健康誤判為有病–多了復查,有病誤判為健康–錯過最佳治療時間。

    損失函數(shù)(loss function) 也被稱為代價函數(shù)(cost function):對所有可能的決策或者動作 可能產(chǎn)生的損失的一種整體度量。目標是:最小化期望損失。

    期望損失的計算:x屬于Ck\mathcal{C}_kCk?類,我們將其劃分為Cj\mathcal{C}_jCj?類,造成的損失為Lkj\mathcal{L}_{kj}Lkj?
    E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dxE[L]=k?j?Rj??Lkj?p(x,Ck?)dx

    得出的結(jié)論還是需要:后驗概率

    1.5.3拒絕選項

    在類別歸屬相對不確定的時候,避免作出決策是更合適的選擇。這樣會使模型的分類錯誤率降低,這被稱為拒絕選項(reject option)。

    癌癥的例子:使用自動化系統(tǒng)來對幾乎沒有懷疑的X光片進行分類,把不易分類的留給人類專家。

    一種簡單的拒絕實現(xiàn)方式:引入一個閾值θ\thetaθ,拒絕后驗概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck?x)的最大值小于等θ\thetaθ的那些輸入x。

    1.5.4推斷和決策

    解決決策問題的三種方法:

  • 推斷類條件密度p(x∣Ck)p(x|\mathcal{C}_k)p(xCk?),推斷類先驗概率密度p(Ck)p(\mathcal{C}_k)p(Ck?),計算后驗概率->決策(生成式模型)。
  • 直接推斷后驗概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck?x)->決策(判別式模型)。
  • 找到一個判別函數(shù)f(x)f(x)f(x),直接把輸入x映射到類別標簽中。
  • 三種方法各有優(yōu)缺點。

    1.5.5 回歸問題的損失函數(shù)

    回到曲線擬合問題:對于每一個輸入x,對應(yīng)目標值t的估計值為y(x), 造成的損失是L(t,y(x)),那么期望損失為:
    E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdtE[L]=L(t,y(x))p(x,t)dxdt

    L(t,y(x))常用平方損失函數(shù)–L(t,y(x))=[y(x)?t]2L(t,y(x))=[y(x)-t]^2L(t,y(x))=[y(x)?t]2。我們的目標是選擇合適的y(x)來使E[L]\mathbb{E}[L]E[L]最小化。形式變分法求解y(x)(不會求):
    δE[L]δy(x)=2∫{y(x)?t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0δy(x)δE[L]?=2{y(x)?t}p(x,t)dt=0

    使用概率的加和規(guī)則和乘積規(guī)則有(對上式子進行移項和相除操作得到):
    y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}y(x)=p(x)tp(x,t)dt?=tp(tx)dt=Et?[tx](1.89)

    Et[t∣x]\mathbb{E}_t[t|x]Et?[tx]符號迷惑,理解成 t 在給定x條件下的期望會更容易理解。Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]Ep(tx)?[t]

    所以y(x)最優(yōu)解就是t的條件期望。

    同樣有三種方法來解決回歸問題:

  • 確定p(x,t),計算p(t|x),依據(jù)1.89式進行積分
  • 推斷p(t|x),依據(jù)1.89式進行積分
  • 直接通過數(shù)據(jù)找到回歸函數(shù)模型y(x)
  • 閔可夫斯基損失函數(shù)–平方損失函數(shù)的推廣
    E[L]q=∫∫∣y(x)?t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdtE[L]q?=y(x)?tqp(x,t)dxdt

    1.6 信息論

    信息量的概念:觀察到一個離散型隨機變量時,我們能獲得多少信息?直覺上,低概率事件具有高信息量。尋找一個表達信息量的函數(shù)h(?)h(\cdot)h(?)是p(x)的遞減函數(shù)。且如果有兩個不相關(guān)的事件x,y,觀察到兩個事件同時發(fā)生的信息量應(yīng)該等于兩件事各自發(fā)生時的概率,即h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y),兩件不相關(guān)的事是統(tǒng)計獨立的,因此有p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)。容易得出h(x)與p(x)是對數(shù)關(guān)系。因此有(單個隨機變量的信息量):
    h(x)=?log?2p(x)h(x)=-\log_2p(x)h(x)=?log2?p(x)

    熵:傳輸隨機變量x的平均信息量為:
    H[x]=?∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)H[x]=?x?p(x)log2?p(x)

    非均勻分布的熵比均勻分布的熵要小。

    無噪聲編碼定理:熵是傳輸一個隨機變量狀態(tài)值所需比特位的下界。

    熵起源于物理學:N個物體放到若干個箱子中,所有的方案數(shù)構(gòu)成乘數(shù)。乘數(shù)通過合適參數(shù)縮放對數(shù)乘數(shù),且當N?>∞N->\inftyN?>時,就可以得到自然對數(shù)熵的定義。

    離散型隨機變量的熵特性:
    熵是非負數(shù);熵的最小值為0;利用概率歸一化約束,使用拉格朗日乘子法找到熵的最大值為所有的值都相等,且等于1M\frac{1}{M}M1?時,熵值最大。M為xix_ixi?的狀態(tài)總數(shù)。

    熵的概念從離散型隨機變量擴展到連續(xù)型隨機變量:將連續(xù)型隨機變量離散化,然后讓Δ?>0\Delta->0Δ?>0,得到微分熵的概念:
    ?∫p(x)ln?p(x)dx-\int p(x)\ln p(x) dx?p(x)lnp(x)dx
    熵的離散形式和連續(xù)形式相差一個ln?Δ\ln \DeltalnΔΔ?>0\Delta->0Δ?>0的情況下是發(fā)散的。反映一個重要的事實:具體化一個連續(xù)型隨機變量需要大量的比特位。

    連續(xù)型隨機變量的熵特性:
    最大化微分熵的分布是高斯分布,最大的熵值還由分布的方差決定。隨著方差的增大而增大(越平越大的趨勢還是在的)
    H[x]=12{1+ln?(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}H[x]=21?{1+ln(2πσ2)}
    微分熵可以為負數(shù)。

    條件熵:

    **KL散度:**目標分布p(x)p(x)p(x),近似分布q(x∣θ)q(x|\theta)q(xθ)–平均附加信息量,比原來的信息量多出來的信息量。KL散度不是一個對稱量。
    KL(p∣∣q)=?∫p(x)ln?{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dxKL(pq)=?p(x)ln{p(x)q(x)?}dx

    **凸函數(shù):**弦在函數(shù)圖像上,對應(yīng)的函數(shù)的二階導數(shù)為正。
    f(λa+(1?λ)b)<=λf(a)+(1?λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)f(λa+(1?λ)b)<=λf(a)+(1?λ)f(b)

    **凹函數(shù):**弦在函數(shù)圖像的下方,對應(yīng)的二階導數(shù)為負數(shù)
    f(x)=?f(x)f(x)=-f(x)f(x)=?f(x)

    利用Jensen 不等式+?ln?x-\ln x?lnx函數(shù)是凸函數(shù) 證明了KL散度非負數(shù)。因此可以將KL散度看作兩分布之間不相似程度的度量。(解釋性說明)

    最大似然等價與最小化**目標分布p(x)p(x)p(x),近似分布q(x∣θ)q(x|\theta)q(xθ)之間的KL散度。

    **互信息:**獲知一個隨機變量的值后另一個隨機變量不確定度減少的量。
    I(x,y)=H(x)?H(x∣y)=H(y)?H(y∣x)I(x,y) = H(x)-H(x|y)=H(y)-H(y|x)I(x,y)=H(x)?H(xy)=H(y)?H(yx)


    關(guān)鍵概念:
    誤差函數(shù)(error function)
    泛化能力(generalization)
    特征抽取(feature extract)
    預處理(pre-processed)
    模型選擇(model selection)
    模型對比(model comparison)
    正則化(regularization)
    權(quán)值衰減(weight decay)
    收縮(shrinkage)
    加和規(guī)則(sum rule)
    乘積規(guī)則(product relu)

    總結(jié)

    以上是生活随笔為你收集整理的PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。