三人表决器逻辑表达式与非_机器学习 | 关于参数模型与非参数模型研究
關注并標星索信達
每天打卡閱讀
更快走進金融人工智能世界
━━━━━━
我們是索信達集團旗下的金融人工智能實驗室團隊,微信公眾號(datamargin)將不定期推送原創AI科學文章。我們的作品都是由實戰經驗豐富的AI科學技術人員或資深顧問精心準備,志在分享結合實際業務的理論應用和心得體會。
文 | 索 信 達 Yvonne Yang
引言
在大數據時代,我們常常面臨成萬上億的數據,伴隨著的是高維度的變量,當今很多學術和技術領域都致力于解決針對大數據的模型構造,例如神經網絡、深度學習。但對于金融和商業領域,變量是如何影響響應變量的(可解釋性)、模型是否可靠等因素尤為重要,特別是當我們的數據集只包含了屈指可數的幾個變量,那么特征變量的選取應更嚴謹,變量與響應變量間關系的量化也是重要的指標,此時可以運用更為精細的模型探索方法。廣義線性模型和廣義加性模型分別由線性模型和加性模型推廣而來,能更廣泛地應用于不同分布的數據,并輔以似然比檢驗逐步優化模型。本文將從參數模型和非參數模型的角度,以廣義線性模型和廣義加性模型為例,配以相應的案例,對模型探索以及優化方法進行簡要介紹。1. 參數回歸模型1.1 傳統線性模型
統計學中,參數模型是一類可以通過結構化表達式和參數集表示的模型。為確定兩種或兩種以上變量之間的定量關系,我們希望通過手中已有的數據去“擬合”出一個“線性方程”,眾所周知的經典線性回歸模型(Linear Regression Model)就屬于參數模型,
它要求響應變量y是實值的且連續的,用于我們通常所說的“回歸問題”。
1.2 廣義線性模型
1.2.1 模型介紹
日常生活中的許多問題的數據形式并不符合“連續”這個要求,并且面臨很多“分類問題“,即該把某對象預測為屬于哪一類,這時傳統的線性回歸模型便顯得約束過于強而導致應用范圍的狹窄。此外,對于一些較為特殊的分布,如偏態分布和常為重尾分布的金融數據,該如何選擇模型呢?廣義線性模型(Generalized Linear Model)應運而生,它將線性回歸的思想推廣到探索多種形式的響應變量和回歸變量之間的關系。其向量形式為:
其中
被稱為連接函數(link function),滿足平滑(簡單來說,圖像光滑)且可逆(反函數存在的函數是可逆的)的條件,
為給定樣本下Y的分布。
可以看到,當y為連續變量并且我們選擇
作為y|x 的分布,連接函數取恒等函數
時,它恰好是傳統的線性回歸模型;邏輯回歸也是其特例,連接函數為
;而當y為離散值且選擇分布為
,連接函數為
時,模型變為:
恰好是泊松回歸模型。可以見得,以上常見模型都是廣義線性模型的一種特殊形式,廣義線性模型通過連接函數將模型變得更靈活而具有普適性。
1.2.2 分布選擇
分布的選擇依賴于給定樣本中y值的分布,y的分布觀察可利用直方圖和核密度估計(kernel density estimator)。特別的,對于均值與方差相差甚遠的離散響應變量y,選擇Poisson分布不再是一個明智的選擇(因為服從Poisson分布的隨機變量均值與方差應相等),因此可嘗試用負二項分布。
圖1. 幾種常見分布
1.2.3 連接函數
對于連接函數的選擇,此處引入指數族分布的概念:概率密度函數(p.d.f.)或者概率質量函數(p.m.f.)能化成如下形式的分布,被稱為指數族分布,
其中
是自然參數,
是尺度參數,且滿足條件:
以下給出一些常見的指數族分布及其標準連接函數(canonical link function):
為簡化得到系數
的數學計算,通常我們選擇標準連接函數,特別地,對于要求y值大于0的響應變量,可以選擇連接函數
,以保證預測值仍然滿足大于0。
1.2.4 模型優化之似然比檢驗
對于參數不顯著的項(例如X1),說明其對于目標變量的影響不顯著,可是去掉之后模型是否顯著變好,有時用肉眼無法甄別,此時可借助似然比檢驗。我們希望檢驗一個更“小”的模型是否可行,此處假設設定為 :
原假設:
備擇假設:
若
,p值小于顯著性水平時,拒絕原假設,認為X1去掉模型效果將顯著變差。1.3 示例
例如在一個案例中(數據來自:https://www.kaggle.com/mirichoi0218/insurance),我們要探索保險公司給付的保費(charges)與年齡、性別、bmi、地區、抽煙習慣、小孩數量之間的函數關系,目標變量charges為連續變量,下圖為核密度估計曲線,發現其近似Gamma分布,因此可選擇Gamma分布與其標準連接函數
.
圖2: 目標變量charges分布
圖3: gamma分布圖(來自:Wikipedia)
對于上圖中的數據集,當模型優化至此步,發現不顯著項(p值大于0.05)大部分與region(地域)有關(如左圖所示)。去掉region這一項后,重新擬合模型,在參數顯著性上有所提升,然而AIC略微上升(如右圖所示):
圖4: 模型結果輸出-優化前(左)優化后(右)
看起來小小犧牲AIC能換來參數顯著性的提高,那么把地域特征去除真的能達到優化模型的效果嗎?我們希望檢驗一個更“小”的模型是否可行,當顯著性水平設為
時,根據如下輸出結果,p值為0.3989,不拒絕原假設,認為“地區(region)”可從模型中移除,至此模型優化結束。似然比檢驗能更客觀地告訴我們某一特征能否從模型中移除。
圖5: 似然比檢驗結果
2.非參數回歸模型
2.1 非參數模型
參數模型與非參數模型的區別在于:參數模型預先設定了模型的形式,后通過最小化score function求得參數,而非參數模型不對隨機變量預先假設任何模型形式,預測器的構建都依賴于數據,可以自由地從數據中學習出模型,具有極大的靈活性。在構造目標函數時,非參的方法尋找合適的訓練數據,同時保留一些對數據的泛化能力, 因此,這些非參方法能夠擬合大多數的函數形式。例如K近鄰算法就是典型的非參模型,對于一個新的數據實例x,該算法尋找離x最鄰近的K個樣本,以“多數取勝”策略來確定x的類別。
受限于先驗模型的形式,參數模型有時無法全面地捕捉到數據樣本的特征,且有時模型形式難以預先確定。對于回歸問題而言,常用的非參數回歸方法有局部多項式回歸(polynomial regression)和樣條回歸(spline regression)。對于p個變量的回歸問題,非參數方法能得到最終的回歸方程
,或向量表示為
.
2.2 從加性模型到廣義加性模型
非參數回歸的模型形式自由,完全由數據驅動,適應力強,但也有顯著的缺點,例如“高維詛咒”:當維數較高時,前述的兩種非參數回歸方法開始變得不穩定且收斂減慢,同時最終的回歸方程解釋性和可視化能力弱。解決維度問題的一種方法是利用加性模型(Additive Model):
其中
為單變量非參數方程。該方法相當于將1個p維變量的方程轉換成了p個單變量方程。
相似地,通過連接函數
,可推廣到廣義加性模型(Generalized additive model):
2.3 示例
采用廣義加性模型,能克服非參數模型常有的解釋性弱和可視化能力差的問題,可以研究單個變量的非參數項。例如探究房價與10個變量的關系,采用樣條函數平滑每一個變量,變量顯著性如下圖所示:
圖6:GAM模型擬合結果
通過繪制部分預測圖,可以探索單個變量的效應,其中每幅圖橫軸為單一變量取值,縱軸為對應的
:
圖7: 部分預測圖
3. 半參數模型
3.1 模型介紹
在非參數模型模型優化的過程中,有些變量呈現出強烈的線性性,對該變量
應用線性項
替代非線性項放入模型中。此時得到的是“半參數模型”,它同時含有線性項和非線性項,作為非參數模型和參數模型之間的一類模型,半參數模型既繼承了非參數模型的靈活性,又繼承了參數模型的可解釋性,可以進一步改善非參數模型的缺陷。半參數模型常具有以下的形式:
其中
為線性項 ,
為非線性項。
3.2 示例
在2.3示例中,非參數模型擬合后發現x5和x9的非參數項不夠顯著,進一步觀察部分預測圖發現變量x5對模型響應變量沒有貢獻(因為其縱軸刻度始終都在0附近),變量x8和x9表現出線性性(因為其部分預測圖近似直線),而其他變量表現出非線性性。據此移除變量x5,并將x8和x9的項替換為線性項,優化得到一個半參模型,所有項都是顯著的,結果如下所示:
圖8: 優化后參數顯著性
4. 小結
傳統的參數模型(如線性回歸)只能處理一些簡單的變量間呈現特定關系的數據,當面臨的問題更復雜的時候,變量關系說不清道不明,參數模型不一定能達到目標效果。非參數模型可以規避上述問題,具有更好的靈活性,并可通過廣義加性模型獲得更好的性能。此外,半參數模型是介于參數模型和非參數模型之間的一類,常由非參模型優化得來,兼具靈活性和可解釋性。
對于樣本量足夠大而變量數量不大的數據集,或者對一些需要追蹤指標變化原因的場景,這些統計模型及其優化方法或許能派上用場。其通過分布選擇與連接函數推廣到更具有普適性的模型,并能利用統計方法去檢測變量的選擇是否具有合理性。無論是廣義線性模型和廣義加性模型,都能學習到一個既定的模型,通過變量參數或者部分預測圖去發現變量如何影響響應變量,同時對于新的數據集可以產生相應的預測值。
注:本文使用的分析工具為R語言, 有興趣的讀者可自行了解。
總結
以上是生活随笔為你收集整理的三人表决器逻辑表达式与非_机器学习 | 关于参数模型与非参数模型研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring 扫描所有_SpringBo
- 下一篇: 爬虫404如何跳过_网站改版之后的一次思