日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差

發布時間:2025/4/14 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH567 高維統計專題1 稀疏信號及其恢復5 LASSO的估計誤差

    • Signal Recovery Noisy Setting
    • LASSO的估計誤差

Signal Recovery Noisy Setting

前四講算是把無噪聲的情況討論得差不多了,這一講開始我們討論含噪聲的稀疏信號恢復問題。假設observations是
y=Ax?+wy=Ax^*+wy=Ax?+w

其中A∈Rn×dA \in \mathbb{R^{n \times d}}ARn×d是design matrix,x?∈Rdx^* \in \mathbb{R}^dx?Rd是true signal,www是noise;現在的問題是我們知道yyyAAA,想要得到真實信號的一個估計量x^\hat xx^;關于這個問題有三種等價的分析框架:

Penalized Least Square
min?x12n∥y?Ax∥22+λn?(x)\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2+\lambda_n\phi(x)xmin???2n1?y?Ax22?+λn??(x)

其中λn\lambda_nλn?是regularization parameter,?(x)\phi(x)?(x)是penalty function,12n∥y?Ax∥22\frac{1}{2n}\left\| y -Ax \right\|_2^22n1?y?Ax22?是least square loss:

  • ?(x)=∥x∥1\phi(x)=\left\| x \right\|_1?(x)=x1?: LASSO
  • ?(x)=∥x∥2\phi(x)=\left\| x \right\|_2?(x)=x2?: Ridge regression
  • ?(x)=η∥x∥1+(1?η)∥x∥2\phi(x)=\eta \left\| x\right\|_1+(1-\eta)\left\| x\right\|_2?(x)=ηx1?+(1?η)x2?: Elastic net
  • 此外還有adaptive lasso, adaptive elastic net, SCAD (smoothly clipped absolute deviations), MCP (minimax concave penalty)等一系列通過設計penalty function得到能實現不同目的的penalized least square模型;

    Constraint Least Square
    min?x12n∥y?Ax∥22s.t.?(x)≤R\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \phi(x) \le Rxmin???2n1?y?Ax22?s.t.???(x)R

    這與Penalized Least Square是完全等價的。

    Relaxed Basis Pursuit或者Basis Pursuit Denoising

    min?x?(x)s.t.12n∥y?Ax∥22≤b2\min_x \ \ \phi(x) \\ s.t. \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \le b^2xmin????(x)s.t.??2n1?y?Ax22?b2

    這種一般在EECS的文獻中比較常見,統計學一般用前兩種(主要是第一種)框架。


    LASSO的估計誤差

    在noisy setting下,full recovery自然是不可能的了,但我們希望估計誤差∥x^?x?∥\left\| \hat x - x^*\right\|x^?x?盡可能小,下面我們討論一下LASSO估計誤差的下界。

    在第二講推導L1L_1L1?-minimization時,為了構造L0L_0L0?-norm的scale-invariant性質,我們引入了一個凸錐
    C(S)={Rd:∥ΔSC∥1≤∥ΔS∥1}C(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1\}C(S)={Rd:ΔSC?1?ΔS?1?}

    其中S?{1,2,?,d}S \subset \{1,2,\cdots,d\}S?{1,2,?,d}是一個指標集;在討論LASSO估計量時,我們需要再對這個凸錐做一點修正,考慮到LASSO估計量的特點是L1L_1L1?-norm作為penalty提供sparse solution,沒有被shrink to zero的那些observation會被proportional shrink,據此我們引入一個新的凸錐
    Cα(S)={Rd:∥ΔSC∥1≤α∥ΔS∥1}C_{\alpha}(S)=\{\mathbb{R}^d:\left\| \Delta_{S^C} \right\|_1 \le \alpha \left\| \Delta_{S} \right\|_1\}Cα?(S)={Rd:ΔSC?1?αΔS?1?}

    Restricted Eigenvalue Condition
    稱design matrix AAA滿足Restricted Eigenvalue Condition over index set SSS with parameter (κ,α)(\kappa,\alpha)(κ,α)如果
    1n∥AΔ∥22≥κ∥Δ∥22,?Δ∈Cα(S)\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2,\forall \Delta \in C_{\alpha}(S)n1?AΔ22?κΔ22?,?ΔCα?(S)

    通常將這個條件簡單記為RE(κ,α)RE(\kappa,\alpha)RE(κ,α)

    評注
    如果κ>0\kappa>0κ>0,則RE(κ,α)RE(\kappa,\alpha)RE(κ,α)說明
    1n∥AΔ∥22≥κ∥Δ∥22>0,?Δ∈Cα(S)?{0}\frac{1}{n}\left\| A \Delta\right\|_2^2 \ge \kappa \left\| \Delta \right\|_2^2>0,\forall \Delta \in C_{\alpha}(S) \setminus \{0\}n1?AΔ22?κΔ22?>0,?ΔCα?(S)?{0}

    這說明
    C1(S)∩Null(A)={0}C_{1}(S) \cap Null(A) = \{0\}C1?(S)Null(A)={0}

    也就是Restricted Null Property成立。

    定理 如果supp(x?)=Ssupp(x^*)=Ssupp(x?)=S∣S∣=s|S|=sS=sAAA滿足RE(κ,α)RE(\kappa,\alpha)RE(κ,α) over SSS:

  • 在Penalized Least Square形式的LASSO中,如果λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\| \frac{A^Tw}{n}\right\|_{\infty}λn?2?nATw???∥x^?x?∥2≤3κsλn\left\| \hat x-x^* \right\|_2 \le \frac{3}{\kappa}\sqrt{s}\lambda_nx^?x?2?κ3?s?λn?因此最小的上界為6κs∥ATwn∥∞\frac{6}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ6?s??nATw???
  • 在Constraint Least Square形式的LASSO中,如果R=∥x?∥1R=\left\| x^*\right\|_1R=x?1?,則∥x^?x?∥2≤4κs∥ATwn∥∞\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}x^?x?2?κ4?s??nATw???
  • 在Relaxed Basis Pursuit形式的LASSO中,如果b2≥∥w∥222nb^2 \ge \frac{\left\| w \right\|_2^2}{2n}b22nw22??,則∥x^?x?∥2≤4κsλn∥ATwn∥∞+2κb2?∥w∥222n\left\| \hat x - x^* \right\|_2 \le \frac{4}{\kappa}\sqrt{s}\lambda_n \left\| \frac{A^Tw}{n}\right\|_{\infty}+\frac{2}{\sqrt{\kappa}}\sqrt{b^2-\frac{\left\| w\right\|_2^2}{2n}}x^?x?2?κ4?s?λn??nATw???+κ?2?b2?2nw22???因此,當b2=∥w∥222nb^2 = \frac{\left\| w \right\|_2^2}{2n}b2=2nw22??時,上界最小,為4κs∥ATwn∥∞\frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}κ4?s??nATw???
  • 評注
    從上面這幾個結果來看,κ\kappaκ越大(restricted eigenvalue condition越嚴格),sss越小(信號越系數),估計量的誤差就越小;另外,上界的大小主要由∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}?nATw???決定,其中www是noise term;如果AAA是固定的,w~iidN(0,σ2)w \sim_{iid} N(0,\sigma^2)wiid?N(0,σ2),假設(標準化design matrix的列向量)
    ∥Aj∥2n=1\frac{\left\|A_j \right\|_2}{n}=1nAj?2??=1

    AAA滿足RE(κ,α)RE(\kappa,\alpha)RE(κ,α),則
    ATwn~N(0,ATAn2σ2)\frac{A^Tw}{n} \sim N(0,\frac{A^TA}{n^2}\sigma^2)nATw?N(0,n2ATA?σ2)

    ATwn\frac{A^Tw}{n}nATw?中每個元素的邊緣分布為N(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n),因此ATwn\frac{A^Tw}{n}nATw?L∞L_{\infty}L?-norm其實就是dddN(0,σ2/n)N(0,\sigma^2/n)N(0,σ2/n)的最大值;根據UA MATH567 高維統計III 隨機矩陣12 整數環上的區間的應用:拐點偵測的統計量及假設檢驗中介紹的最大值的概率不等式,
    P(∥ATwn∥∞≥σ(2log?dn+δ))≤2e?nδ22P(\left\| \frac{A^Tw}{n}\right\|_{\infty} \ge \sigma(\sqrt{\frac{2 \log d}{n}}+\delta)) \le 2e^{-\frac{n\delta^2}{2}}P(?nATw???σ(n2logd??+δ))2e?2nδ2?

    1n?δ\frac{1}{\sqrt{n}} \lesssim \deltan?1??δ,則nδ2→∞n\delta^2 \to \inftynδ2,從而以上概率的上界為0,這說明∥ATwn∥∞\left\| \frac{A^Tw}{n}\right\|_{\infty}?nATw???依概率1滿足
    ∥ATwn∥∞=O(slog?dn)\left\| \frac{A^Tw}{n}\right\|_{\infty} =O(\sqrt{\frac{s\log d}{n}})?nATw???=O(nslogd??)

    這是一個非常重要的結果,這時到目前為止的Frequentist Optimality;

    證明第二條結論
    考慮
    min?x12n∥y?Ax∥22s.t.∥x∥1≤R=∥x?∥1\min_x \ \ \frac{1}{2n}\left\| y -Ax \right\|_2^2 \\ s.t. \ \ \left\| x\right\|_1 \le R=\left\|x^* \right\|_1xmin???2n1?y?Ax22?s.t.??x1?R=x?1?

    假設θ^\hat \thetaθ^是它的解,x?x^*x?是true signal,定義Δ=x^?x?\Delta=\hat x - x^*Δ=x^?x?;根據解的定義,
    ∥y?Ax^∥22≤∥y?Ax?∥22∥Ax?+w?Ax^∥22≤∥w∥22∥w?AΔ∥22≤∥w∥22∥w∥22+∥AΔ∥22?2wTAΔ≤∥w∥22∥AΔ∥22≤2wTAΔ\left\| y -A\hat x \right\|_2^2 \le \left\| y -Ax^* \right\|_2^2 \\ \left\| Ax^* +w-A\hat x \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w-A\Delta \right\|_2^2 \le \left\| w \right\|_2^2 \\ \left\| w \right\|_2^2 +\left\|A\Delta \right\|_2^2-2w^TA\Delta \le \left\|w \right\|_2^2 \\ \left\|A\Delta \right\|_2^2 \le 2w^TA\Deltay?Ax^22?y?Ax?22?Ax?+w?Ax^22?w22?w?AΔ22?w22?w22?+AΔ22??2wTAΔw22?AΔ22?2wTAΔ

    根據Cauchy不等式
    ∥AΔ∥22n≤2wTAΔn≤2∥ATwn∥∞∥Δ∥1\frac{ \left\|A\Delta \right\|_2^2}{n} \le \frac{2w^TA\Delta}{n} \le 2\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1nAΔ22??n2wTAΔ?2?nATw???Δ1?

    下面我們說明Δ∈C1(S)?C3(S)\Delta \in C_1(S) \subset C_3(S)ΔC1?(S)?C3?(S):因為x?x^*x?是true signal,所以
    ∥xS?∥=∥x?∥1=R≥∥x^∥1=∥x?+Δ∥1=∥xS?+ΔS∥1+∥ΔSC∥1≥∥xS?∥?∥ΔS∥1+∥ΔSC∥1\left\| x^*_S \right\| = \left\|x^* \right\|_1=R \ge \left\| \hat x\right\|_1 = \left\| x^*+\Delta\right\|_1 \\= \left\| x^*_S+\Delta_S\right\|_1+\left\| \Delta_{S^C} \right\|_1 \ge \left\| x^*_S \right\|-\left\| \Delta_{S} \right\|_1+\left\| \Delta_{S^C} \right\|_1xS??=x?1?=Rx^1?=x?+Δ1?=xS??+ΔS?1?+ΔSC?1?xS???ΔS?1?+ΔSC?1?

    所以
    ∥ΔSC∥1≤∥ΔS∥1\left\| \Delta_{S^C} \right\|_1 \le \left\| \Delta_{S} \right\|_1ΔSC?1?ΔS?1?

    也就是說Δ∈C1(S)\Delta \in C_1(S)ΔC1?(S);根據RE(κ,1)RE(\kappa,1)RE(κ,1)
    ∥Δ∥22≤1nκ∥AΔ∥22≤2κ∥ATwn∥∞∥Δ∥1\left\| \Delta \right\|_2^2 \le \frac{1}{n\kappa}\left\| A \Delta\right\|_2^2 \le \frac{2}{\kappa}\left\| \frac{A^Tw}{n}\right\|_{\infty} \left\| \Delta \right\|_1 Δ22?nκ1?AΔ22?κ2??nATw???Δ1?

    其中
    ∥Δ∥1=∥ΔS∥1+∥ΔSC∥1≤2∥ΔS∥1≤2s∥ΔS∥2\left\| \Delta \right\|_1=\left\| \Delta_S \right\|_1+\left\| \Delta_{S^C} \right\|_1 \le 2\left\| \Delta_S \right\|_1 \le 2 \sqrt{s}\left\| \Delta_S \right\|_2Δ1?=ΔS?1?+ΔSC?1?2ΔS?1?2s?ΔS?2?

    代入上式中可得
    ∥Δ∥2≤4κs∥ATwn∥∞\left\| \Delta \right\|_2 \le \frac{4}{\kappa}\sqrt{s} \left\| \frac{A^Tw}{n}\right\|_{\infty}Δ2?κ4?s??nATw???

    總結

    以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复5 LASSO的估计误差的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。