當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性

發布時間：2025/4/14 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

UA MATH567 高維統計專題1 稀疏信號及其恢復7 LASSO的預測誤差與變量選擇一致性

- Prediction Error
- Variable Selection Consistency

Prediction Error

前兩講介紹了LASSO估計誤差的一些結果，這一講介紹LASSO的預測誤差，在統計學習理論中，我們定義
$∥Ax^?Ax?∥\left\| A\hat x - Ax^*\right\|$

為模型的預測誤差，對于LASSO而言， $A$ 是design matrix， $x^\hat x$ 是LASSO估計， $x^*$ 是參數的真實值。

先看一個簡單的例子，假設有兩個特征， $A_1,A_2$ ，并且它們高度相關；假設有兩種可選的模型：
$x^=(1,0)T,x~=(0,1)T\hat x = (1,0)^T,\tilde x=(0,1)^T$

因此預測誤差為
$∥A(x^?x?)∥,∥A(x~?x?)∥\left\|A(\hat x-x^*)\right\|,\left\|A(\tilde x-x^*)\right\|$

首先，分析預測誤差有一個很重要的觀念：要讓 $∥A(x^?x?)∥\left\|A(\hat x-x^*)\right\|$ 比較小并不需要嘗試讓 $∥x^?x?∥\left\| \hat x - x^* \right\|$ 比較小；也就是對預測誤差的分析與對估計誤差的分析其實是比較獨立的兩個問題（換句話說就是在做數據分析的時候，參數估計和預測其實是兩類不同的數據分析問題，在數據比較復雜的情況下應該分別建模！）

定理對于Penalized Least Square形式的LASSO，如果 $λn≥2∥ATwn∥∞\lambda_n \ge 2 \left\|\frac{A^Tw}{n} \right\|_{\infty}$ ，則

Slow rate result:

∥A(x^?x?)∥22n≤12∥x?∥1λn\frac{\left\| A(\hat x - x^*)\right\|_2^2}{n} \le 12 \left\| x^* \right\|_1 \lambda_n

Fast rate result: 如果

A

滿足

RE(κ,3)RE(\kappa,3)

over

S = supp(x^*)

，則

∥A(x^?x?)∥22/n≤9κ∣S∣λn2\left\| A(\hat x - x^*)\right\|_2^2/n \le \frac{9}{\kappa}|S|\lambda_n^2

評注
在第五講中，我們介紹了一個non-asymptotic的結果，取
$λn=2σ(2log?dn+δ)\lambda_n=2\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)$

則Slow rate result說明預測誤差的上界為
$24∥x?∥1σ(2log?dn+δ)24\left\| x^* \right\|_1\sigma(\sqrt{\frac{2 \log d}{n}}+\delta)$

取 $δ=O(1/n)\delta=O(1/\sqrt{n})$ ，則上界的階為 $O(log?dn)O(\sqrt{\frac{\log d}{n}})$ ，這與第五講得到的關于估計誤差的階接近；而fast rate result的階會是 $log?dn\frac{\log d}{n}$ ，在 $d = o (n)$ 時，fast rate result比slow rate result更快趨于0

Variable Selection Consistency

當用LASSO做變量選擇時，我們希望它具有一致性；記 $S=S(x^*)=supp(x^*)$ ，我們希望 $P(S(x^)=S(x?))P(S(\hat x)=S(x^*))$ 足夠大甚至趨近于1，一個更強的結果是 $P(sign(x^)=sign(x?))P(sign(\hat x)=sign(x^*))$ 趨近于1，這個被稱為sign consistency。

一個反例 (Zhao&Yu 2006)
如果 $X1,X2～iidN(0,1)X_1,X_2 \sim_{iid} N(0,1)$ ， $X_3=X_1+X_2$ ，
$y=3X1+2X2+0X3+?y=3X_1+2X_2+0X_3+\epsilon$

則做變量選擇時， $X_3$ 總會先被加入模型（也就是 $X_3$ 總會被認為是有效特征），這是因為 $3=\argmax_i Corr(y,X_i)$ ；此時變量選擇的一致性永遠也無法達成。

一致性的條件
用 $γmin?(?)\gamma_{\min}(\cdot)$ 表示某個矩陣的最小特征值，第一個條件是
$γmin?(ASTAS/n)≥cmin?>0\gamma_{\min}(A_S^TA_S/n) \ge c_{\min}>0$

其中 $c_{\min}$ 是一個常正實數；第二個條件被Zhao&Yu 2006稱為irrepresentable condition:
$max?j∈SC∥(ASTAS)?1ASTAj∥1≤α<1,α∈[0,1)\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1 \le \alpha<1,\alpha \in [0,1)$

其中 $A_S^TA_S)^{-1}A_S^TA_j$ 實際上是用 $A_S$ 對 $A_j$ 做回歸的最小二乘系數，我們希望true model以外的特征與true model相關性越低越好，最好是 $ASC⊥ASA_{S^C} \perp A_S$ ，否則就會發生如同上面反例中的事情。下面完整敘述一下這個條件，定義
$ηn=max?j∈SC∥(ASTAS)?1ASTAj∥1\eta_n=\max_{j \in S^C}\left\| (A_S^TA_S)^{-1}A_S^TA_j \right\|_1$

當 $\to \infty$ ， $d=O(enκ),κ<1d=O(e^{n^{\kappa}}),\kappa<1$ 時，在Gauss error下， $ηn≤α<1\eta_n \le \alpha<1$ 是一致性的充分條件，其中 $α\alpha$ 是常數； $ηn<1\eta_n<1$ 是一個必要條件。因為充分條件和必要條件差別著實不大，要構造一個滿足必要性但不滿足充分性的例子比較困難，但change point detection(可以參考Multiple change-point detection: A selective overview)就滿足這個條件，它的design matrix是所有非零元素均為1的下三角矩陣，所以change point model一般不用regression-based method處理。

總結

以上是生活随笔為你收集整理的UA MATH567 高维统计专题1 稀疏信号及其恢复7 LASSO的预测误差与变量选择一致性的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： LASSO与Item Response
下一篇： UA MATH567 高维统计专题2 L