双样本T检验——机器学习特征工程相关性分析实战
生活随笔
收集整理的這篇文章主要介紹了
双样本T检验——机器学习特征工程相关性分析实战
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
最近在做數據分析方面的工作,經常需要檢驗兩組樣本之間是否存在差異,所以會遇到統計學中假設檢驗相關的知識。在機器學習特征工程這一步,筆者最常用到的是假設檢驗中的卡方檢驗去做特征選擇,因為卡方檢驗可以做兩個及兩個以上樣本率( 構成比)以及兩個分類變量的關聯性分析。但是筆者今天想介紹一下通過T檢驗做機器學習中的特征工程,希望能夠讓大家初步了解到各種假設檢驗是如何在機器學習項目的特征工程發揮作用。
假設檢驗簡介
統計學中,常見的假設檢驗有:T檢驗(Student's t Test),F檢驗(方差齊性檢驗),卡方驗證等。無論任何假設檢驗,它們都遵循如下圖所示的流程:
- 做兩個假設:一般如果假設對象是兩組樣本的話,都會假設這兩組樣本均值相等(T檢驗的假設),方差滿足齊次性(F檢驗的假設)等。而另一個假設其實就是兩組樣本均值不相等(T檢驗的假設),方差不滿足齊次性(F檢驗的假設)等,其實這兩個假設就是一對非此即彼的選項。這兩個假設在教科書上就叫做原假設 ,和備擇假設 。
- 設置一個顯著性值:通俗點理解,就是如果真實的情況偏離原假設的程度。
1.如果真實情況和原假設差異不大(P值高于顯著性值),那證明原假設是對的,接受原假設。
2.如果真實情況和原假設差異太大(P值低于顯著性值),那證明原假設錯了,我們得拒絕原假設,接受備擇假設。
顯著性值的選擇是個經驗值
總結
以上是生活随笔為你收集整理的双样本T检验——机器学习特征工程相关性分析实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tableau必知必会之如何用颜色 突显
- 下一篇: Leetcode每日必刷题库第6题,如何