统计学习:线性回归分析(1)
統計學習
最近一直在處理數據,發現自己的理論基礎不夠,在某些小細節上做不好選擇。
因此,開始了這趟補習之旅,將學習成果總結出來,也方便大家的學習于討論。
線性回歸分析
線性回歸分析,是一個很強大的工具。它可以通過一個已知的變量的值,進而推斷一個未知的變量的確切的值。
更精確地說,如果X和Y是兩個相關的變量,那么線性回歸分析會幫助我們在給定x的情況下預計y的值,反之亦然。
舉栗子,一個人的年齡和他的成熟度是相關的變量,那么線性回歸分析可以在給定年齡的情況下預測他的成熟度。
非獨立和獨立變量
在線性回歸模型中,我們假設模型只有一個獨立和一個依賴變量。等待被預測的變量的值別認為是依賴變量,另一個別用來預測其他變量的變量則是獨立變量。
兩條回歸線
這里有兩條回歸線-y對x的,以及x對y的。
y對x的回歸線可以通過y=a+bx確定,其中a和b是未知常量,分別代表方程的截距和斜率。它被用來預測變量y的未知值,當值x已知的時候。
Y=a+bXY=a+bX
另一方面,x對y的回歸線可以通過方程X=c+dy,該方程可以在給出變量y的值之后,用來計算x的值。通常一般只需要計算出兩條線中的一條。
確切地說,哪條線適合于手上的分析將取決于待分析的問題中的依賴變量和獨立變量的定義。
線性回歸的選擇
例如,考慮兩個變量,作物產量(Y)和降雨量(X)。在這里,構造y對x的回歸線是有意義的,并且能夠證明作物產量對降雨的依賴性。然后我們就能估算出給定降雨時的作物產量。
粗心的線性回歸分析的使用者可能會構建一條X對Y的回歸線的,這將給出降雨依賴于作物產量的可笑預測;這表明如果你長出很大的莊稼,你可以保證馬上有一場大雨要來。
回歸系數
Y對X的回歸系數R,稱為y對x的回歸系數,它表示與獨立變量(x)的單位變化對量應的因變量(y)的值的變化。
例如,如果Y對X的回歸系數是0.53單位,則可以認為如果x增加了1單位,Y將增加0.53。對于Y對X的回歸系數,可以給出相應類似的解釋。
一旦構造回歸線,就可以通過檢查確定系數(R2)來檢驗它的優良(在預測能力方面)。R2總是介于0和1之間。每當運行回歸過程時,所有軟件都會提供它。
R2?定義協同因子R2?定義協同因子
R2越接近1,模型和預測能力越好。一個相關的問題是自變量是否顯著地影響因變量。統計上,等價于檢驗回歸系數為零的零假設。這可以用t檢驗來完成。
線性的假設
線性回歸并不檢驗數據是否是線性的。它只在假設獨立變量和因變量之間的關系可以用直線來最好地解釋,確定了斜率和截距。
可以通過畫出散點圖來確認這個假設,如果散點圖表示沒有線性關系,通常一個更適宜的變換可以用來構造出線性關系。
參考:
線性回歸分析
總結
以上是生活随笔為你收集整理的统计学习:线性回归分析(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机辅助设计设计师理论知识试卷,计算机
- 下一篇: 统计学习:基本常用公式(1)