日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

斯坦福统计学习理论笔记:Percy Liang带你搞定「贼难」的理论基础

發布時間:2025/6/17 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 斯坦福统计学习理论笔记:Percy Liang带你搞定「贼难」的理论基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

選自?GitHub

機器之心整理

參與:劉曉坤、思源


CS229T/STAT231 是由斯坦福大學開設的統計學習理論課程,著重于對機器學習算法統計特性的理論理解,涉及機器學習算法何時起作用和原因、如何形式化算法從數據中學習的含義、如何使用數學思維來設計更好的機器學習方法等基本課題。今天要介紹由斯坦福大學計算機系教授 Percy Liang 近期公布的 CS229T/STAT231 的學習筆記。


筆記地址:https://github.com/percyliang/cs229t/blob/master/lectures/notes.pdf



課程 topic


  • 一致收斂(VC 維度,Rademacher 復雜性等)

  • 隱式/算法正則化,神經網絡的泛化理論

  • 內核方法

  • 在線學習和 bandits 問題

  • 無監督學習:指數族,矩方法,GAN 的統計理論


預備知識


  • 熟悉線性代數、實分析、概率論和進行數學證明的基本能力

  • 機器學習(CS229)或統計學(STATS315A)

  • 推薦學習凸優化(EE364A)


筆記目錄



1 課程概述


1.1 這門課程是關于什么的?


機器學習已成為許多應用領域中不可或缺的一部分,包括科學(生物學、神經科學、心理學、天文學等)和工程學(自然語言處理、計算機視覺、機器人學等)。但機器學習不是一種單一的方法;相反,它包含一系列看似完全不同的框架和范例,包括分類、回歸、聚類、矩陣分解、貝葉斯網絡、馬爾可夫隨機場等。本課程旨在揭示這些不同技術背后的共同統計學原理。


本課程是關于學習算法的理論分析。課程中介紹的許多分析技術(包括概率、線性代數和最優化的完美結合)值得研究,并且在機器學習之外也是有用的。


更深入的理論理解可以提供新的視角,并且可以幫助對現有算法進行修改和優化,也有助于提出新的算法。如果沒有理論提供的概念性分析,這些新算法可能很難發現。


理論依賴的假設可能同時太強(例如,數據服從獨立同分布條件)又太弱(例如,任何分布)。實際上,理論的目的不是為了簡化成只需插入數字的公式。相反,理論應該改變思維方式。


本課程分為四個部分:漸近性、一致性收斂、核方法和在線學習。我們將從非常強的假設(假設數據是高斯的、漸近的)轉變為非常弱的假設(假設數據可以對抗地在在線學習中生成)。在這方面,核方法有點不同;它更重要的在于提供表達能力,而不是統計學習。


1.2 漸近


給定基于一些未知參數向量θ*提取的數據,我們從數據中計算出θ hat,θ hat 和θ*有多接近?


對于簡單的模型例如高斯均值估計和固定設計的線性回歸,我們可以求出θ hat -θ*的閉式解。


對于大多數模型,例如 logistic 回歸,我們不能這樣做。但我們可以使用統計學中的常用工具即漸近分析。其基本思想是做泰勒級數展開以得到漸近正態性:即,sqrt(n)*(θ^?θ*) 的分布隨著樣本數量 n 的增加逼近于高斯分布。漸近的意義是即使θ hat 很復雜,我們也可以得到簡單的結果。


我們的大多數分析都將使用最大似然估計,這種估計具有很好的統計特性(它們具有所有估計量中最小的漸近方差)。但是對于大多數隱變量模型而言,最大似然在計算上很困難,并且需要進行非凸優化。這些優化問題通常由 EM 算法解決,只能保證收斂到局部最優。我們將展示矩方法(一種可以追溯到 Pearson(1894)的參數估計經典方法)如何解決這個問題,得到能夠產生全局最優解的有效算法(Anandkumar et al.,2012b)。


圖 1:在漸近分析中,我們研究當一個參數估計θ hat 接近真實參數θ*時,θ hat 的行為。


1.3 一致性收斂


漸進線提供了一個很好的初值分析,并且適用于許多場景。但它有兩個主要的缺點:它需要目標函數是平滑的;在漸進線開始逼近前無法確定要選擇多大的樣本數量 n。


一致性收斂提供了另一種視角,若考慮一個標準的監督學習問題:給定訓練集 (x, y),學習算法會從所有假設 H 中選擇一個最優的預測器 h : X → Y,然后我們在測試數據評估該預測器。現在有一個簡單的問題:訓練誤差 L?(h) 和測試誤差 L(h) 之間的關系是什么樣的?


圖 2:我們希望最小化期望風險 L 以獲得最優的 h*,但是我們實際上只能最小化經驗風險 L ^以獲得 h^。


對于固定的 h ∈ H,訓練誤差 L?(h) 為獨立同分布隨機變量(每一個樣本的損失)的均值,它將收斂到測試誤差 L(h),且收斂率由 Hoeffding 不等式或中心極限定理決定。


但問題是我們假設基于訓練數據選擇一個最佳的假設,并不是使用固定的 h。具體而言,如果考慮經驗風險最小化(ERM),我們需要最小化訓練誤差,從而獲得最優的經驗預測器:



直觀而言,訓練誤差應該比測試誤差小,因此可靠性也低一些。我們可以使用一致性收斂將這一直觀理解形式化為:



這些泛化邊界在某種意義上是統計學習理論的核心。但是在這個過程中,我們可以發展出廣泛有用的不等式,它的應用范圍甚至超越了機器學習。


1.4 核方法


現在我們先繞過學習算法的誤差分析,并考慮我們到底應該學習什么樣的模型?,F實數據非常復雜,所以我們需要極具表達能力的模型。核方法提供了一種嚴格的數學框架,它可以構建復雜、非線性的模型,而且還只需要基于線性模型的機制。


核方法提供了另一種方法定義函數。我們一般定義一個半正定的核函數 k(x, x' ),它將捕捉 x 和 x'之間的相似性,并通過對比一組樣本而定義整個函數:



核方法允許我們構建復雜的非線性函數,例如高斯核函數和徑向基核函數等。它們是通用的方法,且能逼近任意連續的函數。而對于序列、樹型及圖等數據結構,我們可以定義核函數以利用動態規劃實現高效計算。


最后,核方法都是在函數層面上進行操作的,我們可以定義函數的整體空間為再生核希爾伯特空間(RKHS),它允許我們將函數視為向量并執行線性代數的計算規則。


事實證明,所有這三個概念都在描述相同的東西,它們之間相互有聯系:


圖 3:核方法中的三個關鍵數學概念。


1.5 在線學習(Lecture 1)


真實世界是動態的,使用基于漸近和一致性收斂的早期分析會錯失某些重要性質。在線學習試圖以兩種方式解決這個問題:


目前為止,為了分析一個學習算法的誤差,我們必須假設訓練樣本是獨立同分布的。然而在實踐中,數據點可能是互相依賴的,甚至更糟,即它們可能是對抗生成的。


此外,我們目前考慮的都是批量學習設置,即拿到一個訓練集,學習一個模型,然后部署模型。但在實踐中,數據可能是以流的形式存在的,此時我們需要交替學習和預測。


圖 4:在線學習游戲。



總結

以上是生活随笔為你收集整理的斯坦福统计学习理论笔记:Percy Liang带你搞定「贼难」的理论基础的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。