python实现logistic回归对样本量有要求么_logistic回归样本量多少合适?
以下內(nèi)容由小兵精選自百度文庫,分享給讀者朋友們。
樣本量的估計(jì)可能是臨床最頭疼的一件事了,其實(shí)很多的臨床研究事前是從來不考慮樣本量的,至少我接觸的臨床研究大都如此。
他們大都是想到就開始做,但是事后他們會(huì)尋求研究中樣本量的依據(jù),尤其是在投文章被審稿人提問之后。
可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。其實(shí)這也難怪,臨床有臨床的特點(diǎn),很多情況下是很難符合統(tǒng)計(jì)學(xué)要求的,尤其一些動(dòng)物試驗(yàn),可能真的做不了很多。這種情況下確實(shí)是很為難的。
本篇文章僅是從統(tǒng)計(jì)學(xué)角度說明logistic回歸所需的樣本量的大致估計(jì),不涉及臨床特殊問題。
其實(shí)不僅logistic回歸,所有的研究一般都需要對樣本量事前有一個(gè)估計(jì),這樣做的目的是為了盡可能地得出陽性結(jié)果。
比如,你事前沒有估計(jì),假設(shè)你做了20例,發(fā)現(xiàn)是陰性結(jié)果。如果事前估計(jì)的話,可能會(huì)提示你需要30例或25例可能會(huì)得出陽性結(jié)果,那這時(shí)候你會(huì)不會(huì)后悔沒有事前估計(jì)?
當(dāng)然,你可以補(bǔ)實(shí)驗(yàn),但是不管從哪方面角度來講,補(bǔ)做的實(shí)驗(yàn)跟一開始做得實(shí)驗(yàn)可能各種條件已經(jīng)變化,如果你在雜志中說你的實(shí)驗(yàn)是補(bǔ)做的,那估計(jì)發(fā)表的可能性就不大了。
一般來說,簡單的研究,比如組間比較,包括兩組和多組比較,都有比較成熟的公式計(jì)算一下你到底需要多少例數(shù)。這些在多數(shù)的統(tǒng)計(jì)學(xué)教材和流行病學(xué)教材中都有提及。
而對于較為復(fù)雜的研究,比如多重線性回歸、logistic回歸之類的,涉及多個(gè)因素。這種方法理論上也是有計(jì)算公式的,但是目前來講,似乎尚無大家公認(rèn)有效的公式,而且這些公式大都計(jì)算繁瑣,因此,現(xiàn)實(shí)中很少有人對logistic回歸等這樣的分析方法采用計(jì)算的方法來估計(jì)樣本量。而更多地是采用經(jīng)驗(yàn)法。
其實(shí)關(guān)于logistic回歸的樣本量在部分著作中也有提及,一般來講,比較有把握的說法是:每個(gè)結(jié)局至少需要10例樣品。
這里說得是每個(gè)結(jié)局。例如,觀察胃癌的危險(xiǎn)因素,那就是說,胃癌是結(jié)局,不是你的總的例數(shù),而是胃癌的例數(shù)就需要這么多,那總的例數(shù)當(dāng)然更多。
比如我有7個(gè)研究因素,那我就至少需要70例,如果你是1:1的研究,那總共就需要140例。如果1:2甚至更高的,那就需要的更多了。
而且,樣本量的大小也不能光看這一個(gè),如果你的研究因素中出現(xiàn)多重共線性等問題,那可能需要更多的樣本,如果你的因變量不是二分類,而是多分類,可能也需要更大的樣本來保證你的結(jié)果的可靠性。
理論上來講,logistic回歸采用的是最大似然估計(jì),這種估計(jì)方法有很多優(yōu)點(diǎn),然而,一個(gè)主要的缺點(diǎn)就是,必須有足夠的樣本才能保證它的優(yōu)點(diǎn),或者說,它的優(yōu)點(diǎn)都是建立在大樣本的基礎(chǔ)上的。
一般來講,logistic回歸需要的樣本量要多于多重線性回歸。
最后仍然需要說一句,目前確實(shí)沒有很好的、很權(quán)威的關(guān)于logistic回歸樣本量的估計(jì)方法,更多的都是根據(jù)自己的經(jīng)驗(yàn)以及分析過程中的細(xì)節(jié)發(fā)現(xiàn)。
如果你沒有太大的把握,就去請教統(tǒng)計(jì)老師吧,至少他能給你提出一些建議。
原百度文庫作者:shiliupp
同類文章推薦閱讀:
總結(jié)
以上是生活随笔為你收集整理的python实现logistic回归对样本量有要求么_logistic回归样本量多少合适?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php5.6 xdebug 配置,php
- 下一篇: 我的世界python俄罗斯方块手机版下载