日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

线性回归(课堂记录)

發布時間:2024/3/24 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 线性回归(课堂记录) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一節課(2022.10.29)

線性回歸

(1)線性

(2)殘差是否符合正態(均值=0)

違反獨立性原則:兩個變量存在相關性。。以及偽重復實驗,大多時候也是違反了獨立性原則

方差不齊——本來顯著的關系,做出來結果顯示不顯著

殘差分布不正態,增大犯一類錯誤的可能性:本來無統計格局,統計顯示出了顯著性格局

擬合曲線是否具有趨勢

檢驗殘差——QQnorm殘差圖

方差齊性的重要性

數據分布呈喇叭形:左側-20到20,右側-50到50,典型的方差不齊,不能貿然使用參數檢驗

很多時候數據方差不齊是內在屬性導致的

畫個直方圖檢驗數據正態性,方差齊性——想辦法轉換,或者使用廣義線性回歸

?

殘差正態不好時轉換

殘差正態性不好,log/開根號/標準化等來解決

?先做一個概率分布直方圖,預想轉換后可能的數據分布,考慮使用的轉換方式

左側典型的泊松分布,除了使用ln轉換,也可以套用廣義線性模型里面的泊松分布

(1)lg轉換適用于生態學的生物量等——即本身數據橫跨多個數量級(0.01g和10g),降量綱和維度

(2)開根號,左側點比較多,右側點少

(3)平方轉換

轉換之后相應的解釋也發生變化

標準化轉換scale,均值為0,方差為1,不可以轉換得到原方程。其余的lg、ln、次方、根號可以得到方程

兩個變量之間存在交互效應

x1和x2對y交互產生顯著影響,就必須把x1、x2單獨對y主效應必須放在一個最佳模型里面,更好地解釋交互效應

兩個變量的貢獻性,自相關關系

皮爾遜相關系數、斯皮爾曼相關系數,相關性本身也是樣本量n的相關系數,樣本量越多越不容易得到一個相關(人為定的P=0.7,r2=0.49)

奧德姆剃須刀原則(最吝嗇法則):如無必要,勿增實體(引入變量越少越好)

好多種可選路徑,默認最簡單最高效的方式——簡化模型,R2雖然有所損失,但可以把無關變量刪除,得出一個簡潔的擬合公式。

目錄

線性回歸

方差齊性的重要性

殘差正態不好時轉換

為什么篩選簡化模型

廣義線性回歸

混合效應模型

第二節課(2022.11.5)

常用隨機截距模型

隨機斜率和截距模型


為什么篩選簡化模

(1)容易過度擬合overfit,形成不符合認知的結論(兩個變量高度自相關)

(2)提供無效的重復信息?

? ? ? →獲得性價比更高的模型,花最少的自變量,獲得更大的R2,更好的擬合優度。

最大模型:考慮所有的變量,擬合的R2比較高? ? (預測隨機數,隨機森林,進行迭代擬合)

e.g. 螞蟻的草食性研究,全球數據所有變量(土壤、氣候、水肥氣熱)全部擬合,就可以預測哪些地方食草性高

最少模型:R2略低于最大模型,擬合優度略微降低,但其參數個數往往大幅少于最大模型。即性價比比較高

零模型:評判全面最佳模型擬合出來的結果是否有用。零模型AIC值小于最佳模型,還沒有無變量的影響顯著,最佳模型無意義。(多自變量數據,使用AIC進行多模型推斷)

?n是樣本量,SSerror是誤差平方和,P是參數個數

固定樣本量n,AIC隨著誤差平方和與自變量變化,AIC越小越好。兩個模型之間差異不超過2,不能評價兩個的好壞

step()傻瓜式路徑依賴

廣義的正態分布就是高斯分布

狹義的標準的正態分布:均值為0,方差為1(特指)

邏輯斯蒂模型(a/b出現在指數項上)

狗的年齡和死亡

?logistic轉換? ? ?存活的比例數據會較為完美地貼合這條曲線。

廣義線性回歸

與線性回歸區別:

(1)函數名稱lmer、glmer? ?

(2)不同誤差分布族

不要誤差分布族,擬合model,比較不同的AIC

? (3)線性公式變化

把中間部分轉換(log等),再代入到線性公式

所謂的廣義線性回歸就是能夠轉化為線性回歸的非線性回歸

?在R里面有根據右側進行公式轉換

混合效應模型

多水平模型/多層次模型/混合效應模型

最大似然法:賦予不同的權重

神槍手爺爺帶孫子去森林,槍響鳥落,0.03的概率是孫子打的(隨機因素)

處理一些日常不獨立、不好處理的數據

混合,包括固定效應和隨機效應 (隨機效應解決自相關問題)

嵌套、假重復

時間自相關(重復測量):施肥,不同月份測株高;不同批次

空間自相關:某一地區很多樣點? ? ?

e.g. 降水對生物量? ? ? 距離越接近,植被物種越接近,甘南這一塊不僅降水豐富,物種也豐富,出現正相關。——并不是降水導致了生物量增加,而是空間自相關導致兩者之間出現相關

應該——改變降水(降水梯度),比較生物量的相關關系

又如,村莊里面的牛數量和村莊新生小孩數量——暗含村莊規模,規模越大,牛越多,孩子新生也多。相關不代表二者之間存在因果關系。

系統發育自相關:e.g. 增溫是否會對不同草的株高產生影響——內蒙顯著影響,西藏高原不顯著

可能原因,內蒙的禾草居多響應增溫

系統發育矩陣,來降低系統發育相近物種的比重(三個禾本科、一個菊科、一個豆科)

第二節課(2022.11.5)

?固定效應

(1)我們感興趣的

(2)這個如何影響因變量y,我們感興趣

(3)科學問題感興趣

(4)可以量化,這個效應值

?隨機效應

(1)標簽具有可交換性(A,B,C,D)? ? 字符型而不是數字型? ? ?1,2,3數字型導入時必須as.factor轉換為A,B,C

(2)不感興趣效應值,影響方向,但不得不考慮? ?對因變量y產生影響,須扣除??

探究相對海拔高度(NAP)【自變量】與物種豐富度(Richness)【因變量】之間的關系

隨機效應【9個site,每個地點5個樣點】的Beach

常規解法

(1)complete pooling全部放一起進行線性回歸——擬合出來斜率為負(下圖)

問題:較多離群點,方差不齊? ? 不能說出9個沙灘的情況

(2)No pooling9個地方各自線性回歸

?問題:每個沙灘的R2比較高,效果比較好,但是擬合出來的線差異較大(斜率、截距)

利用混合效應模型解決:

?同一個site的5個點

設置隨機截距,公式如上,αj為調整項

第一層,傳統線性回歸格式

第二層,對于截距來說,總體截距μ,再給予一個校正值αj,每個沙灘各有一個,每個沙灘都形成一個不同的截距

每個沙灘組內,樣本量越多,估計的斜率截距值就越接近自身結果

截距介于No-pooling(樣本點較多)和complete pooling(樣本點較少)之間

常用隨機截距模型

?小的嵌套于大的https://mp.weixin.qq.com/s/2D1PAx9C9ctKk0hJ1Nlm7w

m2<lmer(Richness~1|fBeach),data=RIKZ)

限制性似然最大標準值(REML criterion at convergence)? 239.5

ε殘差(Scaled residuals)分布特征? ? ? ?點到擬合出來的顏色相同的線的垂線段最大,最小,方差

(Fixed efffects)固定效應

截距/斜率估計值分別為? ?6.5819和-2.5684? ? ?與0是否有顯著差異

海拔0,隨海拔生物量變化是否顯著

自由度是小數,,限制性最大似然法本來得出的自由度就是小數

μ總體截距6.48

β總體斜率-2.56

αj,每個沙灘相對于整體的調整值,9個沙灘出現9個調整值

求出9個準確的各自沙灘的截距值

誤差ε,不關注,但可以得到參數值,符合均值為0,有確定方差的正態分布

?

隨機截距,擬合出來就是9條平行線——斜率固定為總體斜率,但截距存在調整

黑線即為擬合出來的總體的線,共享斜率? -2.568

左列各自截距,右側各自斜率

隨機斜率模型——物種豐富度不同,各自沙灘豐富度隨海拔也在變化

兩者之間存在交互效應,就需要隨機斜率——隨著海拔增加,物種豐富度變化,而這種變化依賴于沙灘

?tab_model得出擬合的表格

95%置信區間和0沒有交點,結果顯著性好

13年日本人Nakagawa給出求解R2的方式

使用函數MuMIn,得出比較關注的固定效應的R2m

R2c肯定大于R2m,因為它是兩部分的加和(固定+隨機)

?下側

model1 考慮兩個隨機? species和plot

model0? 只考慮plot

anova分析,AIC差異顯著則需要考慮species,增加擬合優度

!只有裝了lmerTest函數才會對固定效應給予方差分析,得出P值

隨機斜率和截距模型

隨機效應(不同組)和固定效應(NAP)影響y的時候存在交互?

m2<lmer(Richness~NAP|fBeach),data=RIKZ)

?

?截距大的,斜率越負,向左側匯聚

?R2m=0.295,R2c=0.728? ? ?70%可以解釋這個變化,已經可以了。

總結

以上是生活随笔為你收集整理的线性回归(课堂记录)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。