當前位置：首頁 >

线性回归（课堂记录）

發布時間：2024/3/24 40 豆豆

生活随笔收集整理的這篇文章主要介紹了线性回归（课堂记录）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一節課（2022.10.29）

線性回歸

（1）線性

（2）殘差是否符合正態（均值=0）

違反獨立性原則：兩個變量存在相關性。。以及偽重復實驗，大多時候也是違反了獨立性原則

方差不齊——本來顯著的關系，做出來結果顯示不顯著

殘差分布不正態，增大犯一類錯誤的可能性：本來無統計格局，統計顯示出了顯著性格局

擬合曲線是否具有趨勢

檢驗殘差——QQnorm殘差圖

方差齊性的重要性

數據分布呈喇叭形：左側-20到20，右側-50到50，典型的方差不齊，不能貿然使用參數檢驗

很多時候數據方差不齊是內在屬性導致的

畫個直方圖檢驗數據正態性，方差齊性——想辦法轉換，或者使用廣義線性回歸

殘差正態不好時轉換

殘差正態性不好，log/開根號/標準化等來解決

?先做一個概率分布直方圖，預想轉換后可能的數據分布，考慮使用的轉換方式

左側典型的泊松分布，除了使用ln轉換，也可以套用廣義線性模型里面的泊松分布

（1）lg轉換適用于生態學的生物量等——即本身數據橫跨多個數量級（0.01g和10g），降量綱和維度

（2）開根號，左側點比較多，右側點少

（3）平方轉換

轉換之后相應的解釋也發生變化

標準化轉換scale，均值為0，方差為1，不可以轉換得到原方程。其余的lg、ln、次方、根號可以得到方程

兩個變量之間存在交互效應

x1和x2對y交互產生顯著影響，就必須把x1、x2單獨對y主效應必須放在一個最佳模型里面，更好地解釋交互效應

兩個變量的貢獻性，自相關關系

皮爾遜相關系數、斯皮爾曼相關系數，相關性本身也是樣本量n的相關系數，樣本量越多越不容易得到一個相關（人為定的P=0.7，r2=0.49）

奧德姆剃須刀原則（最吝嗇法則）：如無必要，勿增實體（引入變量越少越好）

好多種可選路徑，默認最簡單最高效的方式——簡化模型，R2雖然有所損失，但可以把無關變量刪除，得出一個簡潔的擬合公式。

線性回歸

方差齊性的重要性

殘差正態不好時轉換

為什么篩選簡化模型

廣義線性回歸

混合效應模型

第二節課（2022.11.5）

常用隨機截距模型

隨機斜率和截距模型

為什么篩選簡化模型

（1）容易過度擬合overfit，形成不符合認知的結論（兩個變量高度自相關）

（2）提供無效的重復信息?

? ? ? →獲得性價比更高的模型，花最少的自變量，獲得更大的R2，更好的擬合優度。

最大模型：考慮所有的變量，擬合的R2比較高? ? （預測隨機數，隨機森林，進行迭代擬合）

e.g. 螞蟻的草食性研究，全球數據所有變量（土壤、氣候、水肥氣熱）全部擬合，就可以預測哪些地方食草性高

最少模型：R2略低于最大模型，擬合優度略微降低，但其參數個數往往大幅少于最大模型。即性價比比較高

零模型：評判全面最佳模型擬合出來的結果是否有用。零模型AIC值小于最佳模型，還沒有無變量的影響顯著，最佳模型無意義。（多自變量數據，使用AIC進行多模型推斷）

?n是樣本量，SSerror是誤差平方和，P是參數個數

固定樣本量n，AIC隨著誤差平方和與自變量變化，AIC越小越好。兩個模型之間差異不超過2，不能評價兩個的好壞

step()傻瓜式路徑依賴

廣義的正態分布就是高斯分布

狹義的標準的正態分布：均值為0，方差為1（特指）

邏輯斯蒂模型（a/b出現在指數項上）

狗的年齡和死亡

?logistic轉換? ? ?存活的比例數據會較為完美地貼合這條曲線。

廣義線性回歸

與線性回歸區別：

（1）函數名稱lmer、glmer? ?

（2）不同誤差分布族

不要誤差分布族，擬合model，比較不同的AIC

? （3）線性公式變化

把中間部分轉換(log等)，再代入到線性公式

所謂的廣義線性回歸就是能夠轉化為線性回歸的非線性回歸

?在R里面有根據右側進行公式轉換

混合效應模型

多水平模型/多層次模型/混合效應模型

最大似然法：賦予不同的權重

神槍手爺爺帶孫子去森林，槍響鳥落，0.03的概率是孫子打的（隨機因素）

處理一些日常不獨立、不好處理的數據

混合，包括固定效應和隨機效應（隨機效應解決自相關問題）

嵌套、假重復

時間自相關（重復測量）：施肥，不同月份測株高；不同批次

空間自相關：某一地區很多樣點? ? ?

e.g. 降水對生物量? ? ? 距離越接近，植被物種越接近，甘南這一塊不僅降水豐富，物種也豐富，出現正相關。——并不是降水導致了生物量增加，而是空間自相關導致兩者之間出現相關

應該——改變降水（降水梯度），比較生物量的相關關系

又如，村莊里面的牛數量和村莊新生小孩數量——暗含村莊規模，規模越大，牛越多，孩子新生也多。相關不代表二者之間存在因果關系。

系統發育自相關：e.g. 增溫是否會對不同草的株高產生影響——內蒙顯著影響，西藏高原不顯著

可能原因，內蒙的禾草居多響應增溫

系統發育矩陣，來降低系統發育相近物種的比重（三個禾本科、一個菊科、一個豆科）

第二節課（2022.11.5）

?固定效應

（1）我們感興趣的

（2）這個如何影響因變量y，我們感興趣

（3）科學問題感興趣

（4）可以量化，這個效應值

?隨機效應

（1）標簽具有可交換性（A,B,C,D）? ? 字符型而不是數字型? ? ?1,2,3數字型導入時必須as.factor轉換為A,B,C

（2）不感興趣效應值，影響方向，但不得不考慮? ?對因變量y產生影響，須扣除??

探究相對海拔高度（NAP）【自變量】與物種豐富度（Richness）【因變量】之間的關系

隨機效應【9個site，每個地點5個樣點】的Beach

常規解法

（1）complete pooling全部放一起進行線性回歸——擬合出來斜率為負（下圖）

問題：較多離群點，方差不齊? ? 不能說出9個沙灘的情況

（2）No pooling9個地方各自線性回歸

?問題：每個沙灘的R2比較高，效果比較好，但是擬合出來的線差異較大（斜率、截距）

利用混合效應模型解決：

?同一個site的5個點

設置隨機截距，公式如上，αj為調整項

第一層，傳統線性回歸格式

第二層，對于截距來說，總體截距μ，再給予一個校正值αj，每個沙灘各有一個，每個沙灘都形成一個不同的截距

每個沙灘組內，樣本量越多，估計的斜率截距值就越接近自身結果

截距介于No-pooling（樣本點較多）和complete pooling（樣本點較少）之間

常用隨機截距模型

?小的嵌套于大的https://mp.weixin.qq.com/s/2D1PAx9C9ctKk0hJ1Nlm7w

m2<lmer(Richness~1|fBeach),data=RIKZ)

限制性似然最大標準值（REML criterion at convergence）? 239.5

ε殘差（Scaled residuals）分布特征? ? ? ?點到擬合出來的顏色相同的線的垂線段最大，最小，方差

（Fixed efffects）固定效應

截距/斜率估計值分別為? ?6.5819和-2.5684? ? ?與0是否有顯著差異

海拔0，隨海拔生物量變化是否顯著

自由度是小數，，限制性最大似然法本來得出的自由度就是小數

μ總體截距6.48

β總體斜率-2.56

αj，每個沙灘相對于整體的調整值，9個沙灘出現9個調整值

求出9個準確的各自沙灘的截距值

誤差ε，不關注，但可以得到參數值，符合均值為0，有確定方差的正態分布

隨機截距，擬合出來就是9條平行線——斜率固定為總體斜率，但截距存在調整

黑線即為擬合出來的總體的線，共享斜率? -2.568

左列各自截距，右側各自斜率

隨機斜率模型——物種豐富度不同，各自沙灘豐富度隨海拔也在變化

兩者之間存在交互效應，就需要隨機斜率——隨著海拔增加，物種豐富度變化，而這種變化依賴于沙灘

?tab_model得出擬合的表格

95%置信區間和0沒有交點，結果顯著性好

13年日本人Nakagawa給出求解R2的方式

使用函數MuMIn，得出比較關注的固定效應的R2m

R2c肯定大于R2m，因為它是兩部分的加和（固定+隨機）

?下側

model1 考慮兩個隨機? species和plot

model0? 只考慮plot

anova分析，AIC差異顯著則需要考慮species，增加擬合優度

！只有裝了lmerTest函數才會對固定效應給予方差分析，得出P值

隨機斜率和截距模型

隨機效應（不同組）和固定效應（NAP）影響y的時候存在交互?

m2<lmer(Richness~NAP|fBeach),data=RIKZ)

?截距大的，斜率越負，向左側匯聚

?R2m=0.295，R2c=0.728? ? ?70%可以解釋這個變化，已經可以了。

總結

以上是生活随笔為你收集整理的线性回归（课堂记录）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：编程极简入门(python)-07-批量
下一篇：关于交大教务网的掌上事务管理中心（服务外

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

线性回归（课堂记录）

第一節課（2022.10.29）

線性回歸

方差齊性的重要性

殘差正態不好時轉換

為什么篩選簡化模型

廣義線性回歸

混合效應模型

第二節課（2022.11.5）

常用隨機截距模型

隨機斜率和截距模型

總結