5种较为简单的缺失值处理方法
如果你調查的數據發現有缺失(這幾乎是不可避免的),首先建議先做一些分析,比如這些缺失數據和全部數據在性別、年齡等一些指標上有無差異(但愿是沒有差異的)。
如果差別不大,那還勉強說的過去,如果差別較大,那就麻煩了。審稿人肯定會說,為什么全部數據中男性占50%,而缺失數據中男性占70%?這是不是說明缺失的主要是男性,那會不會影響你的主要研究結局?等等之類的。當然,理論上,你需要證明在所有的因素中差別都不大,但這一點很難,實際中,很多人都是大概看看在一些主要的基線資料中差別不大就算是心里安慰了。
先說一個原則性問題,處理缺失值最好的方式是什么?答案是:沒有最好的方式。或者說,最好的方式只有一個,預防缺失,盡量不要缺失。
聽起來像開玩笑,但這是真理。任何的填補技術都是有問題的,就像有人說的,所有的統計方法都是錯誤的,任何的統計方法都是有條件的,在適當條件下,結論可能比較可信,否則就是錯誤的。
缺失值的處理有很多種方式,本文先說一些比較簡單的。
直接刪除法
這種方法簡單粗暴,是非專業人士很喜歡用的方式。可能你會說,這算是什么方法?事實上,在有些時候,這種方法也是有效的。在缺失數很少的時候,這種方法無可厚非,而且效率很高。如調查了1000人,只有30人缺失,可以考慮刪除,通常影響不會太大。
但這么理想的情況不多見,更多的是缺失率較高的情形。如每個變量缺失30個,這時盡管每個變量缺失都不多,但如果缺失沒有重合,只要有一個變量缺失,就要刪除整條觀測。因此如果直接刪除的話,如果有10個變量缺失,就要刪除300條,那就不一樣了。
一般情況下,很少有恰好所有變量都在相同的觀測缺失,所以,當有缺失數據的變量很多的時候,直接刪除會導致樣本量減少很多。即使你不在乎分析精度,起碼也得考慮一下前期花費的精力吧,相當于你花了100%的精力卻只拿到了70%或60%的回報。
所以,除非你調查的自變量很少,而且每個自變量缺失的都特別少,否則盡量不要采用這種方法。
LOCF法
這種方法主要用于臨床試驗中。臨床試驗中經常需要多次觀察,這就會導致有的人可能第1次隨訪有數據,而第2次(或第3次、第4次)就失訪了,后面就沒有數據了。
這種時候最簡單直接、而且也是很常用的一種方式就是LOCF(last observation carried forward),意思就是,用前一次的數據填補后面的數據。
比如張三,第一次隨訪的血糖是11.3,第二次失訪了,那么第二次以及后面所有的隨訪都填補為11.3。
既然提到LOCF,就順便提一下與其有關的其它類似的幾種方式,比如BOCF(baseline observation carried forward),顧名思義,以基線數據填補后面的缺失;WOCF(worst observation carried forward),以各次隨訪中最差的結果作為缺失值的填補,或者以各次隨訪中最優的結果作為缺失值的填補,做一些敏感性分析,看看最差是什么樣,最好是什么樣。?
文章剩余內容查看<<<<
總結
以上是生活随笔為你收集整理的5种较为简单的缺失值处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何评估ChatGPT的道德风险?
- 下一篇: 考研本校与外校如何选择?