當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

转载：一文带你入门统计学（附资源）

發布時間：2025/3/15 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了转载：一文带你入门统计学（附资源）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文共3559字，建議閱讀7分鐘。

本文介紹了統計學兩大學派：頻率學派和貝葉斯學派的基本觀點，一起來看看大咖是如何講解統計學術語的。

假設檢驗，P值，顯著性水平，置信區間，功效分析到底是什么呢？這里有一份通俗易懂的講解指南。本文介紹了統計學兩大學派：頻率學派和貝葉斯學派的基本觀點，一起來看看大咖是如何講解統計學術語的。

統計學的意義是什么？這份懶人指南將用8分鐘，告訴你統計學所有的基本思想！如果你特別趕時間，只看加粗內容，一分鐘就可以啦！

相關鏈接：

https://medium.com/@kozyrkov/whats-the-point-of-statistics-8163635da56c

統計學是什么？有人會說，統計學是一門有關數據處理和分析的科學。沒錯！從定義上來看，這樣的解釋完全正確。現在讓我們深入了解一下它的具體內容。

統計學是一門關于改變既定觀念的學科。

一般情況下，我們根據事件（統計參數）進行決策尚有難度，更何況有時候我們連對應的事件都沒有。相反，我們已知的部分事件（統計樣本）與我們所希望知道的整體事件（統計總體）之間可能會存在很大的差異。這就意味測量本身是存在著不確定性的。

統計學是一門能在充滿不確定性的情況下改變你對事物看法的科學。當然，首先要確定的是：你目前的看法從何而來？是基于假設檢驗還是基于先驗信念？或者也有可能你沒有任何看法，大腦一片空白。

貝葉斯學派從先驗信念的角度看待問題。

貝葉斯統計學通過結合數據來更新人們對事物的先驗信念。貝葉斯學派傾向于使用置信區間（即介于兩個數字之間的區間）來表示結果。

頻率學派則主張從頻率的角度看待問題。

頻率學派統計學著重于改變一個人的選擇。人們不需要任何先驗信念就可以做出下意識的選擇，也無需分析任何數據。頻率學派統計學（也被稱為古典統計學）大多出現在日常生活中或者像STAT101這種統計學入門課程中，因此本文也對這類經典的理論進行介紹。

假設是對現實世界的一種“可能的”描述。

零假設描述的是一種缺省的情況，即默認的選擇；備擇假設則是與零假設對立的其他一種或者多種情況。如果我用數據證明了“零假設”并不成立，那么你就可以拒絕“零假設”從而接受備擇假設。

例如：如果你每天早上用于準備的時間少于15分鐘話（零假設），我們就可以一起去上課（默認情況）。但是，如果事實（數據）證明你得花更長的時間（備擇假設）才能準備好的話，你就只能自己一個人去了，因為在你準備好之前我已經走了（備選情況）。

簡而言之，假設檢驗的目的在于：“我們的事實證據能否拒絕零假設？”

所有的假設檢驗都在問這樣一個問題：我們的證據能否拒絕零假設？拒絕零假設意味著我們學到了一些東西，我們應該改變自己的觀念。不拒絕零假設意味著我們沒有學到任何新的東西。

就像我們在樹林里徒步旅行的時候，在周圍沒有看到其他人并不能證明地球上沒有人類，只是意味著我們沒有學到有關人類活動范圍的新知識。如果沒有學到新知識，你也不必沮喪，因為你已經知道確切的應對方法。既然你沒有學到新知識，也就沒有理由改變觀念，所以繼續采取默認做法就可以了。

那么我們怎么判斷我們是否學到了新內容？所謂“新內容”，就是與默認選擇完全相悖，可以讓我們新知識。為了得到上面問題的答案，我們可以查看兩個統計參數，P值和置信區間。

P值理論是統計學中重要的一部分。

P值闡述了這樣一個統計參數：如果接受原假設，觀察樣本對原假設的支持程度。通過P值可以判斷假設是否成立。P值越小，意味著默認結果出現的概率越小，“新內容”出現的可能性越大，統計越顯著，說明你應該改變先前的觀念。

進行假設檢驗，我們只需要將P值與顯著性水平進行比較。這就像是一個旋鈕，可以用來控制我們承受風險的大小。顯著性水平指當原假設正確時，人們卻因拒絕它而犯錯的上限概率。如果你將顯著性水平設置為0，那么就意味著你拒絕了備擇假設。那么停下筆吧！別分析數據了，直接按默認方法去做吧。(但堅持默認做法也有可能是錯誤的。)

如何使用P值來獲取假設檢驗的結果。如果P值小于顯著性水平，拒絕原假設；如果P值大于顯著性水平，接受原假設。

置信區間可以用來表示假設檢驗的結果。它的用法是，檢驗其是否與零假設重疊。如果重疊，那么就意味著我們沒有得到任何新結論。如果不重疊，請改變你的看法吧。

置信區間與零假設不重疊的話，就改變你的看法吧。

雖然置信區間的定義晦澀難懂，但它有兩大優點有助于描述數據特性：（1）區間總是包含最合理的假設（2）數據量越大，區間范圍越窄。請注意，置信區間和P值并沒有簡練精辟的定義，因為當初設計這兩個統計參數的目的不在于方便教學。它們只是總結檢驗結果的方法。（如果你上了一節統計課，發現根本記不住這些的定義，原因就在于此。我來代表統計學說一句：不是你的鍋，是我自己的鍋。）

這樣做的意義是，如果你按照我剛才描述的方法進行測試，數學可以保證你犯錯誤的風險被限制在你選擇的顯著性水平以內（這就是為什么你親自設置顯著性水平很重要……數學計算就是為了保證你所選擇的風險設置得以實現，如果你不費心選擇就沒有意義了。）

數學理論是建立零假設的基礎，這也是P值理論的來源。

數學可以制造和檢驗零假設這個“玩具宇宙”（親愛的統計學家們，這多么的酷啊！？簡直太酷了！），并生成數據，從而與已有的數據集進行相似度對比。如果你的零假設玩具宇宙與現實數據相似的可能性太低，你的P值將會很低，你最終會拒絕零假設……那就改變主意接受備擇假設吧！

那些瘋狂的公式、概率、分布是用來做什么的呢？它們讓我們得以描述那些統治零假設世界的一系列規則，從而判斷零假設是否與真實世界相符。如果不是，你就可以大喊：“太荒唐了！拉出去砍了！”如果相符，你聳聳肩，遺憾沒學到新知識。以后我們再深入討論這個話題。

就目前而言，只需將數學的作用看作是幫我們建立了多個小的玩具世界，幫助我們進行檢驗，看看真實數據如果放進玩具世界中是否合理。P值和置信區間是幫你總結的方法，讓你不需要瞇眼費力來閱讀關于這個世界的冗長描述。他們代表著終極判斷：用它們來查看是否采取你默認的做法。任務完成！

我們做準備工作了嗎？這是功效所衡量的內容。

等一下，我們是否做足了準備工作，確保我們實實在在的收集了足夠的證據，讓我們有足夠的把握地改變觀念了嗎？這個問題的答案是由功效這個概念所衡量的。不改變觀念很簡單，只要不去尋找支持它的證據就好了。你的功效越大，說明你給自己更多機會來改變觀念。功效是拒絕原假設且結果正確的概率。

當繼續采取默認做法，我們雖然沒學到什么，如果用功效對原假設進行衡量也能讓我們感覺更好。至少我們做了足夠的準備，也進行了嘗試。如果沒有用功效進行衡量，我們肯定不會改變自己的觀念。這樣甚至不需要去分析數據了。

功效分析用于檢查在著手之前你是否準備了足夠的數據。

功效分析是對給定數量的數據檢測預期功效大小的一種方法，你可以借助功效分析制定研究計劃。

不確定性意味著，即使你擁有世上最棒的數學方法，也可能得出錯誤的結論。

統計是什么？在不確定性中找確定性的神奇魔法。但沒有哪種魔法可以做到這一點，人們總會犯錯誤。提到錯誤，在頻率統計中有兩類經常出現的錯誤。

第一類錯誤是指原假設是對的，我們卻拒絕了原假設。大概就是，老兄，雖然你對這個默認做法很滿意，但你的數學計算說服你放棄它。第二類錯誤是指原假設是錯的，我們卻接受了原假設。（我們統計學家對命名真是有創意。猜一猜哪一個錯誤更糟糕？第一類？沒錯，很有創意吧。）

第一類錯誤就像是給一個無辜的人定罪，而第二類錯誤則是未能給一個有罪的人定罪。犯這兩類錯誤的概率是平衡的（提高抓住壞人的概率也同時提高了錯判好人的概率），除非你擁有更多證據（數據！），可以使犯兩類錯誤的概率都變小，整體結果都會變得更好。這就是為什么統計學家希望你擁有大量、豐富的數據！當你擁有更多的數據時，一切都變得更好了！

數據越多越容易杜絕錯誤的結論。

什么是多重比較校正（multiplecomparisons correction）呢？如果你打算對同一個受試群體詢問多個問題時，那么你必須以不同的、不斷調整的方式詢問。如果你一遍又一遍地審訊無辜的嫌疑人（當你持續探測你的數據），最終某個隨機事件總會讓案子看起來有罪。

“統計顯著”（statistically significant）這個術語并不意味著在零假設的世界里發生了重要的事情，它僅僅意味著我們改變了看法。這種改變也可能是錯誤的，都怪煩人的不確定性！

別浪費你的時間來嚴謹地回答錯誤的問題了，試試統計學的方法吧！

那什么是第三類錯誤呢？這是一個統計學的笑話：它指的是正確地拒絕了錯誤的零假設。換句話說，運用的數學方法都是正確的，卻回答了錯誤的問題。

解決這個錯誤的問題的一個方法可以在“智能決策工程”（Decision Intelligence Engineering）這個視頻中找到。智能決策工程是一個使用數據科學解決商業問題和優化決策的新學科。通過掌握智能決策這種方法，你可以避免犯第三類錯誤和無用的數據分析。

相關鏈接：

https://www.youtube.com/watch?v=x1k37Na1iLc&t=374s

總而言之，統計學是一種改變你的觀念的科學。目前分為兩種流派，更常見的是頻率統計派——檢驗你是否應該拒絕你的原假設。貝葉斯統計派則是根據數據更新先驗信念。如果你在開始分析數據之前大腦一片空白，那就先看看你的數據，然后跟著直覺走吧。

相關報道：

https://towardsdatascience.com/statistics-for-people-in-a-hurry-a9613c0ed0b

總結

以上是生活随笔為你收集整理的转载：一文带你入门统计学（附资源）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： js提交出现post错误_阿里云的 No
下一篇：安徽理工大学大学计算机科学与技术学院,2