线性回归(课堂记录)
第一節課(2022.10.29)
線性回歸
(1)線性
(2)殘差是否符合正態(均值=0)
違反獨立性原則:兩個變量存在相關性。。以及偽重復實驗,大多時候也是違反了獨立性原則
方差不齊——本來顯著的關系,做出來結果顯示不顯著
殘差分布不正態,增大犯一類錯誤的可能性:本來無統計格局,統計顯示出了顯著性格局
擬合曲線是否具有趨勢
檢驗殘差——QQnorm殘差圖
方差齊性的重要性
數據分布呈喇叭形:左側-20到20,右側-50到50,典型的方差不齊,不能貿然使用參數檢驗
很多時候數據方差不齊是內在屬性導致的
畫個直方圖檢驗數據正態性,方差齊性——想辦法轉換,或者使用廣義線性回歸
?
殘差正態不好時轉換
殘差正態性不好,log/開根號/標準化等來解決
?先做一個概率分布直方圖,預想轉換后可能的數據分布,考慮使用的轉換方式
左側典型的泊松分布,除了使用ln轉換,也可以套用廣義線性模型里面的泊松分布
(1)lg轉換適用于生態學的生物量等——即本身數據橫跨多個數量級(0.01g和10g),降量綱和維度
(2)開根號,左側點比較多,右側點少
(3)平方轉換
轉換之后相應的解釋也發生變化
標準化轉換scale,均值為0,方差為1,不可以轉換得到原方程。其余的lg、ln、次方、根號可以得到方程
兩個變量之間存在交互效應
x1和x2對y交互產生顯著影響,就必須把x1、x2單獨對y主效應必須放在一個最佳模型里面,更好地解釋交互效應
兩個變量的貢獻性,自相關關系
皮爾遜相關系數、斯皮爾曼相關系數,相關性本身也是樣本量n的相關系數,樣本量越多越不容易得到一個相關(人為定的P=0.7,r2=0.49)
奧德姆剃須刀原則(最吝嗇法則):如無必要,勿增實體(引入變量越少越好)
好多種可選路徑,默認最簡單最高效的方式——簡化模型,R2雖然有所損失,但可以把無關變量刪除,得出一個簡潔的擬合公式。
目錄
線性回歸
方差齊性的重要性
殘差正態不好時轉換
為什么篩選簡化模型
廣義線性回歸
混合效應模型
第二節課(2022.11.5)
常用隨機截距模型
隨機斜率和截距模型
為什么篩選簡化模型
(1)容易過度擬合overfit,形成不符合認知的結論(兩個變量高度自相關)
(2)提供無效的重復信息?
? ? ? →獲得性價比更高的模型,花最少的自變量,獲得更大的R2,更好的擬合優度。
最大模型:考慮所有的變量,擬合的R2比較高? ? (預測隨機數,隨機森林,進行迭代擬合)
e.g. 螞蟻的草食性研究,全球數據所有變量(土壤、氣候、水肥氣熱)全部擬合,就可以預測哪些地方食草性高
最少模型:R2略低于最大模型,擬合優度略微降低,但其參數個數往往大幅少于最大模型。即性價比比較高
零模型:評判全面最佳模型擬合出來的結果是否有用。零模型AIC值小于最佳模型,還沒有無變量的影響顯著,最佳模型無意義。(多自變量數據,使用AIC進行多模型推斷)
?n是樣本量,SSerror是誤差平方和,P是參數個數
固定樣本量n,AIC隨著誤差平方和與自變量變化,AIC越小越好。兩個模型之間差異不超過2,不能評價兩個的好壞
step()傻瓜式路徑依賴
廣義的正態分布就是高斯分布
狹義的標準的正態分布:均值為0,方差為1(特指)
邏輯斯蒂模型(a/b出現在指數項上)
狗的年齡和死亡
?logistic轉換? ? ?存活的比例數據會較為完美地貼合這條曲線。
廣義線性回歸
與線性回歸區別:
(1)函數名稱lmer、glmer? ?
(2)不同誤差分布族
不要誤差分布族,擬合model,比較不同的AIC
? (3)線性公式變化
把中間部分轉換(log等),再代入到線性公式
所謂的廣義線性回歸就是能夠轉化為線性回歸的非線性回歸
?在R里面有根據右側進行公式轉換
混合效應模型
多水平模型/多層次模型/混合效應模型
最大似然法:賦予不同的權重
神槍手爺爺帶孫子去森林,槍響鳥落,0.03的概率是孫子打的(隨機因素)
處理一些日常不獨立、不好處理的數據
混合,包括固定效應和隨機效應 (隨機效應解決自相關問題)
嵌套、假重復
時間自相關(重復測量):施肥,不同月份測株高;不同批次
空間自相關:某一地區很多樣點? ? ?
e.g. 降水對生物量? ? ? 距離越接近,植被物種越接近,甘南這一塊不僅降水豐富,物種也豐富,出現正相關。——并不是降水導致了生物量增加,而是空間自相關導致兩者之間出現相關
應該——改變降水(降水梯度),比較生物量的相關關系
又如,村莊里面的牛數量和村莊新生小孩數量——暗含村莊規模,規模越大,牛越多,孩子新生也多。相關不代表二者之間存在因果關系。
系統發育自相關:e.g. 增溫是否會對不同草的株高產生影響——內蒙顯著影響,西藏高原不顯著
可能原因,內蒙的禾草居多響應增溫
系統發育矩陣,來降低系統發育相近物種的比重(三個禾本科、一個菊科、一個豆科)
第二節課(2022.11.5)
?固定效應
(1)我們感興趣的
(2)這個如何影響因變量y,我們感興趣
(3)科學問題感興趣
(4)可以量化,這個效應值
?隨機效應
(1)標簽具有可交換性(A,B,C,D)? ? 字符型而不是數字型? ? ?1,2,3數字型導入時必須as.factor轉換為A,B,C
(2)不感興趣效應值,影響方向,但不得不考慮? ?對因變量y產生影響,須扣除??
探究相對海拔高度(NAP)【自變量】與物種豐富度(Richness)【因變量】之間的關系
隨機效應【9個site,每個地點5個樣點】的Beach
常規解法
(1)complete pooling全部放一起進行線性回歸——擬合出來斜率為負(下圖)
問題:較多離群點,方差不齊? ? 不能說出9個沙灘的情況
(2)No pooling9個地方各自線性回歸
?問題:每個沙灘的R2比較高,效果比較好,但是擬合出來的線差異較大(斜率、截距)
利用混合效應模型解決:
?同一個site的5個點
設置隨機截距,公式如上,αj為調整項
第一層,傳統線性回歸格式
第二層,對于截距來說,總體截距μ,再給予一個校正值αj,每個沙灘各有一個,每個沙灘都形成一個不同的截距
每個沙灘組內,樣本量越多,估計的斜率截距值就越接近自身結果
截距介于No-pooling(樣本點較多)和complete pooling(樣本點較少)之間
常用隨機截距模型
?小的嵌套于大的https://mp.weixin.qq.com/s/2D1PAx9C9ctKk0hJ1Nlm7w
m2<lmer(Richness~1|fBeach),data=RIKZ)
限制性似然最大標準值(REML criterion at convergence)? 239.5
ε殘差(Scaled residuals)分布特征? ? ? ?點到擬合出來的顏色相同的線的垂線段最大,最小,方差
(Fixed efffects)固定效應
截距/斜率估計值分別為? ?6.5819和-2.5684? ? ?與0是否有顯著差異
海拔0,隨海拔生物量變化是否顯著
自由度是小數,,限制性最大似然法本來得出的自由度就是小數
μ總體截距6.48
β總體斜率-2.56
αj,每個沙灘相對于整體的調整值,9個沙灘出現9個調整值
求出9個準確的各自沙灘的截距值
誤差ε,不關注,但可以得到參數值,符合均值為0,有確定方差的正態分布
?
隨機截距,擬合出來就是9條平行線——斜率固定為總體斜率,但截距存在調整
黑線即為擬合出來的總體的線,共享斜率? -2.568
左列各自截距,右側各自斜率
隨機斜率模型——物種豐富度不同,各自沙灘豐富度隨海拔也在變化
兩者之間存在交互效應,就需要隨機斜率——隨著海拔增加,物種豐富度變化,而這種變化依賴于沙灘
?tab_model得出擬合的表格
95%置信區間和0沒有交點,結果顯著性好
13年日本人Nakagawa給出求解R2的方式
使用函數MuMIn,得出比較關注的固定效應的R2m
R2c肯定大于R2m,因為它是兩部分的加和(固定+隨機)
?下側
model1 考慮兩個隨機? species和plot
model0? 只考慮plot
anova分析,AIC差異顯著則需要考慮species,增加擬合優度
!只有裝了lmerTest函數才會對固定效應給予方差分析,得出P值
隨機斜率和截距模型
隨機效應(不同組)和固定效應(NAP)影響y的時候存在交互?
m2<lmer(Richness~NAP|fBeach),data=RIKZ)
?
?截距大的,斜率越負,向左側匯聚
?R2m=0.295,R2c=0.728? ? ?70%可以解釋這個變化,已經可以了。
總結
以上是生活随笔為你收集整理的线性回归(课堂记录)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 编程极简入门(python)-07-批量
- 下一篇: 关于交大教务网的掌上事务管理中心(服务外