日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性

發布時間:2025/4/14 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH567 高維統計專題1 稀疏信號及其恢復7 LASSO的預測誤差與變量選擇一致性

    • Prediction Error
    • Variable Selection Consistency

Prediction Error

前兩講介紹了LASSO估計誤差的一些結果,這一講介紹LASSO的預測誤差,在統計學習理論中,我們定義
∥Ax^?Ax?∥\left\| A\hat x - Ax^*\right\|Ax^?Ax?

為模型的預測誤差,對于LASSO而言,AAA是design matrix,x^\hat xx^是LASSO估計,x?x^*x?是參數的真實值。

先看一個簡單的例子,假設有兩個特征,A1,A2A_1,A_2A1?,A2?,并且它們高度相關;假設有兩種可選的模型:
x^=(1,0)T,x~=(0,1)T\hat x = (1,0)^T,\tilde x=(0,1)^Tx^=(1,0)T,x~=(0,1)T

因此預測誤差為
∥A(x^?x?)∥,∥A(x~?x?)∥\left\|A(\hat x-x^*)\right\|,\left\|A(\tilde x-x^*)\right\|A(x^?x?),A(x~?x?)

首先,分析預測誤差有一個很重要的觀念:要讓∥A(x^?x?)∥\left\|A(\hat x-x^*)\right\|A(x^?x?)比較小并不需要嘗試讓∥x^?x?∥\left\| \hat x - x^* \right\|x^?x?比較小;也就是對預測誤差的分析與對估計誤差的分析其實是比較獨立的兩個問題(換句話說就是在做數據分析的時候,參數估計和預測其實是兩類不同的數據分析問題,在數據比較復雜的情況下應該分別建模!)


定理 對于Penalized Least Square形式的LASSO,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\|\frac{A^Tw}{n} \right\|_{\infty}λn?2?nATw???,則

  • Slow rate result:∥A(x^?x?)∥22n≤12∥x?∥1λn\frac{\left\| A(\hat x - x^*)\right\|_2^2}{n} \le 12 \left\| x^* \right\|_1 \lambda_nnA(x^?x?)22??12x?1?λn?
  • Fast rate result: 如果AAA滿足RE(κ,3)RE(\kappa,3)RE(κ,3) over S=supp(x?)S = supp(x^*)S=supp(x?),則∥A(x^?x?)∥22/n≤9κ∣S∣λn2\left\| A(\hat x - x^*)\right\|_2^2/n \le \frac{9}{\kappa}|S|\lambda_n^2A(x^?x?)22?/nκ9?Sλn2?
  • 評注
    在第五講中,我們介紹了一個non-asymptotic的結果,取
    λn=2σ(2log?dn+δ)\lambda_n=2\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)λn?=2σ(n2logd??+δ)

    則Slow rate result說明預測誤差的上界為
    24∥x?∥1σ(2log?dn+δ)24\left\| x^* \right\|_1\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)24x?1?σ(n2logd??+δ)

    δ=O(1/n)\delta=O(1/\sqrt{n})δ=O(1/n?),則上界的階為O(log?dn)O(\sqrt{\frac{\log d}{n}})O(nlogd??),這與第五講得到的關于估計誤差的階接近;而fast rate result的階會是log?dn\frac{\log d}{n}nlogd?,在d=o(n)d=o(n)d=o(n)時,fast rate result比slow rate result更快趨于0

    Variable Selection Consistency

    當用LASSO做變量選擇時,我們希望它具有一致性;記S=S(x?)=supp(x?)S=S(x^*)=supp(x^*)S=S(x?)=supp(x?),我們希望P(S(x^)=S(x?))P(S(\hat x)=S(x^*))P(S(x^)=S(x?))足夠大甚至趨近于1,一個更強的結果是P(sign(x^)=sign(x?))P(sign(\hat x)=sign(x^*))P(sign(x^)=sign(x?))趨近于1,這個被稱為sign consistency。

    一個反例 (Zhao&Yu 2006)
    如果X1,X2~iidN(0,1)X_1,X_2 \sim_{iid} N(0,1)X1?,X2?iid?N(0,1)X3=X1+X2X_3=X_1+X_2X3?=X1?+X2?
    y=3X1+2X2+0X3+?y=3X_1+2X_2+0X_3+\epsilony=3X1?+2X2?+0X3?+?

    則做變量選擇時,X3X_3X3?總會先被加入模型(也就是X3X_3X3?總會被認為是有效特征),這是因為3=arg?max?iCorr(y,Xi)3=\argmax_i Corr(y,X_i)3=iargmax?Corr(y,Xi?);此時變量選擇的一致性永遠也無法達成。

    一致性的條件
    γmin?(?)\gamma_{\min}(\cdot)γmin?(?)表示某個矩陣的最小特征值,第一個條件是
    γmin?(ASTAS/n)≥cmin?>0\gamma_{\min}(A_S^TA_S/n) \ge c_{\min}>0γmin?(AST?AS?/n)cmin?>0

    其中cmin?c_{\min}cmin?是一個常正實數;第二個條件被Zhao&Yu 2006稱為irrepresentable condition:
    max?j∈SC∥(ASTAS)?1ASTAj∥1≤α<1,α∈[0,1)\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1 \le \alpha<1,\alpha \in [0,1)jSCmax??(AST?AS?)?1AST?Aj??1?α<1,α[0,1)

    其中(ASTAS)?1ASTAj(A_S^TA_S)^{-1}A_S^TA_j(AST?AS?)?1AST?Aj?實際上是用ASA_SAS?AjA_jAj?做回歸的最小二乘系數,我們希望true model以外的特征與true model相關性越低越好,最好是ASC⊥ASA_{S^C} \perp A_SASC?AS?,否則就會發生如同上面反例中的事情。下面完整敘述一下這個條件,定義
    ηn=max?j∈SC∥(ASTAS)?1ASTAj∥1\eta_n=\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1ηn?=jSCmax??(AST?AS?)?1AST?Aj??1?

    n,d→∞n,d \to \inftyn,dd=O(enκ),κ<1d=O(e^{n^{\kappa}}),\kappa<1d=O(enκ),κ<1時,在Gauss error下,ηn≤α<1\eta_n \le \alpha<1ηn?α<1是一致性的充分條件,其中α\alphaα是常數;ηn<1\eta_n<1ηn?<1是一個必要條件。因為充分條件和必要條件差別著實不大,要構造一個滿足必要性但不滿足充分性的例子比較困難,但change point detection(可以參考Multiple change-point detection: A selective overview)就滿足這個條件,它的design matrix是所有非零元素均為1的下三角矩陣,所以change point model一般不用regression-based method處理。

    總結

    以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。