日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性

發(fā)布時間:2025/4/14 63 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

UA MATH567 高維統(tǒng)計專題1 稀疏信號及其恢復(fù)7 LASSO的預(yù)測誤差與變量選擇一致性

    • Prediction Error
    • Variable Selection Consistency

Prediction Error

前兩講介紹了LASSO估計誤差的一些結(jié)果,這一講介紹LASSO的預(yù)測誤差,在統(tǒng)計學(xué)習(xí)理論中,我們定義
∥Ax^?Ax?∥\left\| A\hat x - Ax^*\right\|Ax^?Ax?

為模型的預(yù)測誤差,對于LASSO而言,AAA是design matrix,x^\hat xx^是LASSO估計,x?x^*x?是參數(shù)的真實值。

先看一個簡單的例子,假設(shè)有兩個特征,A1,A2A_1,A_2A1?,A2?,并且它們高度相關(guān);假設(shè)有兩種可選的模型:
x^=(1,0)T,x~=(0,1)T\hat x = (1,0)^T,\tilde x=(0,1)^Tx^=(1,0)T,x~=(0,1)T

因此預(yù)測誤差為
∥A(x^?x?)∥,∥A(x~?x?)∥\left\|A(\hat x-x^*)\right\|,\left\|A(\tilde x-x^*)\right\|A(x^?x?),A(x~?x?)

首先,分析預(yù)測誤差有一個很重要的觀念:要讓∥A(x^?x?)∥\left\|A(\hat x-x^*)\right\|A(x^?x?)比較小并不需要嘗試讓∥x^?x?∥\left\| \hat x - x^* \right\|x^?x?比較小;也就是對預(yù)測誤差的分析與對估計誤差的分析其實是比較獨立的兩個問題(換句話說就是在做數(shù)據(jù)分析的時候,參數(shù)估計和預(yù)測其實是兩類不同的數(shù)據(jù)分析問題,在數(shù)據(jù)比較復(fù)雜的情況下應(yīng)該分別建模!)


定理 對于Penalized Least Square形式的LASSO,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\|\frac{A^Tw}{n} \right\|_{\infty}λn?2?nATw???,則

  • Slow rate result:∥A(x^?x?)∥22n≤12∥x?∥1λn\frac{\left\| A(\hat x - x^*)\right\|_2^2}{n} \le 12 \left\| x^* \right\|_1 \lambda_nnA(x^?x?)22??12x?1?λn?
  • Fast rate result: 如果AAA滿足RE(κ,3)RE(\kappa,3)RE(κ,3) over S=supp(x?)S = supp(x^*)S=supp(x?),則∥A(x^?x?)∥22/n≤9κ∣S∣λn2\left\| A(\hat x - x^*)\right\|_2^2/n \le \frac{9}{\kappa}|S|\lambda_n^2A(x^?x?)22?/nκ9?Sλn2?
  • 評注
    在第五講中,我們介紹了一個non-asymptotic的結(jié)果,取
    λn=2σ(2log?dn+δ)\lambda_n=2\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)λn?=2σ(n2logd??+δ)

    則Slow rate result說明預(yù)測誤差的上界為
    24∥x?∥1σ(2log?dn+δ)24\left\| x^* \right\|_1\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)24x?1?σ(n2logd??+δ)

    δ=O(1/n)\delta=O(1/\sqrt{n})δ=O(1/n?),則上界的階為O(log?dn)O(\sqrt{\frac{\log d}{n}})O(nlogd??),這與第五講得到的關(guān)于估計誤差的階接近;而fast rate result的階會是log?dn\frac{\log d}{n}nlogd?,在d=o(n)d=o(n)d=o(n)時,fast rate result比slow rate result更快趨于0

    Variable Selection Consistency

    當用LASSO做變量選擇時,我們希望它具有一致性;記S=S(x?)=supp(x?)S=S(x^*)=supp(x^*)S=S(x?)=supp(x?),我們希望P(S(x^)=S(x?))P(S(\hat x)=S(x^*))P(S(x^)=S(x?))足夠大甚至趨近于1,一個更強的結(jié)果是P(sign(x^)=sign(x?))P(sign(\hat x)=sign(x^*))P(sign(x^)=sign(x?))趨近于1,這個被稱為sign consistency。

    一個反例 (Zhao&Yu 2006)
    如果X1,X2~iidN(0,1)X_1,X_2 \sim_{iid} N(0,1)X1?,X2?iid?N(0,1)X3=X1+X2X_3=X_1+X_2X3?=X1?+X2?
    y=3X1+2X2+0X3+?y=3X_1+2X_2+0X_3+\epsilony=3X1?+2X2?+0X3?+?

    則做變量選擇時,X3X_3X3?總會先被加入模型(也就是X3X_3X3?總會被認為是有效特征),這是因為3=arg?max?iCorr(y,Xi)3=\argmax_i Corr(y,X_i)3=iargmax?Corr(y,Xi?);此時變量選擇的一致性永遠也無法達成。

    一致性的條件
    γmin?(?)\gamma_{\min}(\cdot)γmin?(?)表示某個矩陣的最小特征值,第一個條件是
    γmin?(ASTAS/n)≥cmin?>0\gamma_{\min}(A_S^TA_S/n) \ge c_{\min}>0γmin?(AST?AS?/n)cmin?>0

    其中cmin?c_{\min}cmin?是一個常正實數(shù);第二個條件被Zhao&Yu 2006稱為irrepresentable condition:
    max?j∈SC∥(ASTAS)?1ASTAj∥1≤α<1,α∈[0,1)\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1 \le \alpha<1,\alpha \in [0,1)jSCmax??(AST?AS?)?1AST?Aj??1?α<1,α[0,1)

    其中(ASTAS)?1ASTAj(A_S^TA_S)^{-1}A_S^TA_j(AST?AS?)?1AST?Aj?實際上是用ASA_SAS?AjA_jAj?做回歸的最小二乘系數(shù),我們希望true model以外的特征與true model相關(guān)性越低越好,最好是ASC⊥ASA_{S^C} \perp A_SASC?AS?,否則就會發(fā)生如同上面反例中的事情。下面完整敘述一下這個條件,定義
    ηn=max?j∈SC∥(ASTAS)?1ASTAj∥1\eta_n=\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1ηn?=jSCmax??(AST?AS?)?1AST?Aj??1?

    n,d→∞n,d \to \inftyn,dd=O(enκ),κ<1d=O(e^{n^{\kappa}}),\kappa<1d=O(enκ),κ<1時,在Gauss error下,ηn≤α<1\eta_n \le \alpha<1ηn?α<1是一致性的充分條件,其中α\alphaα是常數(shù);ηn<1\eta_n<1ηn?<1是一個必要條件。因為充分條件和必要條件差別著實不大,要構(gòu)造一個滿足必要性但不滿足充分性的例子比較困難,但change point detection(可以參考Multiple change-point detection: A selective overview)就滿足這個條件,它的design matrix是所有非零元素均為1的下三角矩陣,所以change point model一般不用regression-based method處理。

    總結(jié)

    以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。