高维数据中特征筛选方法的思考总结——单变量分析筛选法
基因組學、轉錄組學、蛋白組學及代謝組學等生信問題(高通量數(shù)據(jù))中,面臨的第一步往往就是降維(或者說篩選特征)。降維方法分為兩大類:單變量分析降維法、多變量分析降維法。單變量降維常常使用FC值或者P值,多變量降維常常使用LASSO和PLS等方法。對于這個問題,將分為兩篇文章進行探討,本文著重探討單變量分析篩選法。
常規(guī)方法的問題
常規(guī)的方法是使用P值法和FC值法。所謂P值法,就是對兩組樣本進行 t 檢驗(或非參數(shù)檢驗);所謂FC值(Fold Change)法,就是求兩組樣本之間的倍數(shù)變化。如果結合P值和FC值綜合分析進行來篩選特征(火山圖),在絕大多數(shù)情況下效果很好;但是方法沒有完美的,FC值法和P值法都有其局限性。
FC值法的缺陷
先看FC值的缺陷:
代謝物X在A組15個病例中的峰值分別是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位數(shù)或平均數(shù)大致為100;
代謝物X在B組15個病例中的峰值分別是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位數(shù)或平均數(shù)大致為110。
代謝物X的FC值(B/A)為1.1。若此時設定FC值以1.2作為界值,X將被排除出模型;然而X可能是一個很好的biomarker,無辜出局。
那么,何時用FC值呢?FC值方法有個特點:FC值越接近1的變量(或者說logFC越接近0的特征),成為好的biomarker的概率越低。也就是說,噪音變量特別多的時候,采用FC值去排除噪音變量的效率很高。亦即信噪比很低時,FC很管用。所以在特征特別多的任務中,初篩變量的第一步會用FC爽一爽。但若建模效果不理想,有可能是初篩時排除了有效的特征,這個時候應該回過頭來放寬界值甚至去除FC標準。
P值法的缺陷
剛剛說的FC值法,實際上觸發(fā)了假陰性的情況,那么p值其實也有類似情況,當選用非參數(shù)檢驗時,假陰性率會上升。因此慎用非參數(shù)檢驗方法。同樣的道理,若初篩后發(fā)現(xiàn)建模效果不理想,可以回過頭來放寬界值甚至選擇統(tǒng)計學檢驗效能更強的方法。
?
挽救方法
挽救方法又稱“豁免方法”,也就是說使用該方法認為某個特征值得保留,但在原方法中已經(jīng)出局,此時可以強制保留這個特征。筆者根據(jù)自己的思考,大致提出3種挽救方式:IQR差異法、界值分類法、放寬標準方式。其中IQR差異法是筆者原創(chuàng),界值分類法是筆者根據(jù)統(tǒng)計分析經(jīng)驗進行的改造。這些方法在代謝組學課題中應用效果不錯。
FC值法的豁免方法
IQR差異法:任意特征在兩組都可以求出25%、50%、75%這3個百分位數(shù)值,據(jù)此定義重合度。若其中一組的25%值大于另一組的75%值,則重合度為0;若A組的50%值大于B組的75%值、且A組的25%值大于B組的50%值,則重合度為1,反之亦然;若A組的50%值大于B組的75%值、或A組的25%值大于B組的50%值,則重合度為2,反之亦然;剩余的情況,重合度為3。重合度越大,差異越小。可根據(jù)情況選擇不同的重合度作為界值來篩選變量。比如,該特征的重合度小于2時,可優(yōu)先考慮(作為挽救特征的方法:即使FC值不顯著,但是IQR顯著,則仍保留)。
P值法的豁免方法
界值分類法:選擇一個合適的界值將變量轉化為分類變量,之后進行統(tǒng)計學檢驗,包括卡方檢驗、率差檢驗、Logistic單變量建模、一致性檢驗等等方法。
界值的選取其實是個值得琢磨的地方,通常情況下會選擇整體數(shù)據(jù)的中位數(shù)進行二分類,但是兩組樣本量不平衡時,也可以根據(jù)樣本量比例選擇相應的百分位點值;最終模型敲定特征后,可以進一步優(yōu)化界值。因此,界值分類法要做得精致,也并不是一件簡單的事。選取界值有個較主觀的技巧,當建模的目的是為了挑選出其中某一個類別時(該類別成為“目標類別”)(不是單純?yōu)榱烁玫胤诸悤r),可以結合IQR差異法,以目標類別的50%值作為界值(筆者自己構造的特殊界值點)。這是一種個性化的統(tǒng)計學方法。
界值分類后,大致可以選用4種檢驗方法:卡方檢驗、率差檢驗(兩組率的差異檢驗)、Logistic單變量分析、一致性檢驗。這4種在大多數(shù)情況下結果是差不多的,但是各方法有不同的側重點。此處以對比卡方檢驗和Logistic單變量分析為例:卡方注重檢驗“差別”,Logistic回歸注重檢驗“關聯(lián)”。卡方的p值很小說明差別大,Logistic回歸p值很小說明關聯(lián)大。雖然很多情況下,差別大意味著關聯(lián)大,但是有些中間模糊地帶,差別稍大但不足以很相關。因此卡方檢驗和Logistic單變量分析在某些少數(shù)情況下結論是不一致的。
標準放寬的方法
除了放寬界值,有時候甚至可以將FC值法和P值法的關系改為“且”,就是說,FC值法和P值法同時認定需要剔除某些特征時,才剔除這些特征。將降維的重心移交給多變量分析。有時候甚至直接舍棄FC值法。這是個權衡的過程,沒有絕對的標準。
?
關于FDR校正
在高維數(shù)據(jù)中,由于特征很多,做單變量分析時,很有可能增大假陽性發(fā)現(xiàn)。比如對于10000個特征,分別進行單因素檢驗,則相當于做了10000次多重檢驗。需要進行p值校正。最簡單粗暴的校正方法是Bonferroni 校正,直接將每個變量的檢驗水準除以檢驗次數(shù),懲罰力度過大,容易產(chǎn)生較大的假陰性。最常用的校正方法是FDR校正方法。
FDR表示假陽性發(fā)現(xiàn)率(False Discovery Rate),意思是保證發(fā)現(xiàn)的biomarker集合中,假陽性的biomarker的比例低于一個界值(比如0.05;比如用這個水準找到了100個biomarker,則認為只要5個是假陽性發(fā)現(xiàn))。FDR又稱Q value,或?adjust p value。校正方法此處不贅述(網(wǎng)上很多資料)。
但筆者對FDR這種方法持有保守態(tài)度,因為校正更容易造成假陰性。舉個栗子,對于某些真實有效的biomarker,可能在大部分數(shù)據(jù)中,其檢驗的p值都在0.01左右,但是采用FDR校正,則這種biomarker難逃一劫。
但是如果兩批數(shù)據(jù)都是高通量數(shù)據(jù),若取交集來篩選biomarker(檢驗水準都是0.05),則懲罰力度仍然不夠。因此,比較好的模式應該是,在高通量(非靶向)數(shù)據(jù)中找到biomarker,然后再在新的樣本中靶向檢測這些biomarker,若能得到驗證的則認為更可靠。
?
關于多變量分析降維法,請參考:高維數(shù)據(jù)中特征篩選方法的思考總結——多變量分析篩選法
?
總結
以上是生活随笔為你收集整理的高维数据中特征筛选方法的思考总结——单变量分析筛选法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分治法求第k小元素
- 下一篇: 2021全国计算机ps一级,PS2021