金融量化之华泰多因子估值类显著性和IC值计算
https://blog.csdn.net/m0_37777649/article/details/74937242
比較全面的講解了T檢驗,包含單邊和雙邊的t分位數表
?
https://blog.csdn.net/xuxiatian/article/details/55002412
題目是:使用python統計建模和計量經濟學工具包Statsmodels進行線性回歸,整體上講述了Statsmodels輸出參數的意義
?
https://blog.csdn.net/Haidebian0514/article/details/69945116
題目是:基于Python的線性回歸實戰,鏈接最后一段講了下圖這個表中右上方和右下方參數的意義,講解的還算比較詳細,具有參考價值
?
這是今天看一些網頁摘錄的有用的內容:
?
模型估計出來后,我們要回答的問題是:
我們的模型擬合程度如何?或者說,這個模型對因變量的解釋力如何?(R2)
整個模型是否能顯著預測因變量的變化?(F檢驗)
每個自變量是否能顯著預測因變量的變化?(t檢驗)
?
R-squared:擬合度檢驗,是對已制作好的預測模型進行檢驗,比較它們的預測結果與實際發生情況的吻合程度,越大越好,最大值1
Adj. R-squared:調整的R^2和R^2的值的評價,要根據你研究的目的確定。如果你做出來的模型主要是用于預測,調整的R^2和R^2的值為0.1就太低了,國際上一般標準在0.4左右;如果你做的模型主要是用于評價某一個因素或幾個因素對某特定因素的影響,且回歸系數的t檢驗也是顯著的,那還勉強可以,但建議調整一下模型,盡量提高R^2和R^2的值,調整的R^2和R^2的值太低說明模型解釋能力不好,有違建模的初衷。調整的R^2和R^2的值過低,有以下三種可能:模型中的解釋變量或控制變量沒有選擇好,沒有抓住主變量;模型中可能存在異方差、多重共線和自相關等情況;模型的樣本量不夠。
?
F-statistic:t檢驗可以檢驗各個回歸系數顯著性,f檢驗用來檢驗總體回歸關系的顯著性。對模型整體的顯著性可以通過F統計量來看,結果顯示的F統計量對應的P值(Prob (F-statistic):)顯著小于0.05(0.05是顯著性水平,也可以選取0.01),說明模型整體是顯著的,它的顯著性說明被解釋變量能不能由這些解釋變量進行解釋,F檢驗是對整體的檢驗,F檢驗的通過不代表每一個解釋變量是顯著的。各解釋變量聯合起來對被解釋變量有顯著的線性關系,并不意味著每一個解釋變量分別對被解釋變量有顯著的線性關系。
?
利用t檢驗做出的結論并不是百分之百正確的,仍有很小的幾率會犯錯誤。對于上面的例子,有些人會認為1%的概率已經很小了,可以拒絕原假設,還有些人會認為1%的概率雖然很小,但不足以拒絕原假設。為了解決這個問題,統計學家們提出了一個閾值,如果犯第一類錯誤的概率小于這個閾值,就認為可以拒絕原假設,否則認為不足以拒絕原假設。這個閾值就叫α。P>|t|應該是拒絕原假設錯誤的概率,小于0.05,說明錯誤的概率小于0.05,原假設可以拒絕;
t值等于系數除以標準誤,t值和p>|t|是一個意思,都是看回歸結果是否顯著,p>|t|越小越顯著,對應的是10%、5%、1%水平顯著.若是零,說明,在1%水平上都顯著.
?
研報中,t=2原因(當樣本量大于30后,p=0.05,t絕對值大于2,就認為回歸系數顯著異于0),以下是一個其他方面的例子:
現在,讓我們嘗試引入α,用另一種流程解決例1:
建立原假設和備擇假設
H0:μ?20 ?
H1:μ<20 ?
確定α
令α=0.05(α的值通常為0.01,0.05,0.1,視具體問題而定)
確定用于決策的拒絕域
在確定了α和t統計量自由度(根據樣本容量可以求出,在這個例子中,自由度為[樣本容量-1])的前提下,我們可以通過查詢t分位數表,找出“拒絕域”,如果t統計量落入拒絕域內,就拒絕原假設,否則接收原假設。
根據t雙邊分位數表,我們查出當自由度為30時,|t|>2.042的概率為0.05,因此,拒絕域為{ t| ,|t|>2.042}
?
查看樣本結果是否位于拒絕域內
將樣本均值和樣本標準差帶入t統計量計算公式,得出t=6.573,落入拒絕域內
?
做出決策
拒絕原假設H0,接受備擇假設H1,認為樣本均值與總體均值差異顯著
?
?
每個變量的意思:
上邊的:
R-squared:擬合度檢驗,直線與原數據的擬合程度,回答?我們模型的擬合程度如何,或者說,這個模型對因變量的解釋力如何,越大越好,最大值1;
Adj. R-squared:調整的R^2和R^2的值的評價;
F-statistic:t檢驗可以檢驗各個回歸系數顯著性,f檢驗用來檢驗總體回歸關系的顯著性,回答?整個模型是否能顯著預測因變量的變化?(F檢驗);對模型整體的顯著性可以通過F統計量來看,結果顯示的F統計量對應的P值(Prob (F-statistic):)顯著小于0.05(0.05是顯著性水平,也可以選取0.01),說明模型整體是顯著的,它的顯著性說明被解釋變量能不能由這些解釋變量進行解釋,F檢驗是對整體的檢驗,F檢驗的通過不代表每一個解釋變量是顯著的。各解釋變量聯合起來對被解釋變量有顯著的線性關系,并不意味著每一個解釋變量分別對被解釋變量有顯著的線性關系。
?
P>|t|應該是拒絕原假設錯誤的概率,小于0.05,說明錯誤的概率小于0.05,原假設可以拒絕;t值等于系數均值除以標準差,t值和p>|t|是一個意思,都是看回歸結果是否顯著,p>|t|越小越顯著,對應的是10%、5%、1%水平顯著.若是零,說明,在1%水平上都顯著.
下邊的:
1.DW檢驗用來檢驗殘差的自相關,這里可以認為殘差相互獨立。檢驗統計量為:
DW=2,表示無自相關
DW=4,表示完全負自相關
DW=0,表示完全正自相關
DW在0-2之間說明存在正自相關
DW在2-4之間說明存在負的自相關
一般認為,DW值在1.5-2.5之間即可說明無自相關現象
?
計算IC值時:輸入為行業和因子權重,輸出為因子值,將輸入和輸出進行OLS線性回歸;
計算結果中有DW檢驗的結果,這個結果可以判斷殘差是否具有相關性;
取殘差計算IC值的原因以及要檢驗殘差相關性的原因:
因子載荷包含市值和行業因素,不同行業不同市值直接比較不具有可比性,所以選擇數據擬合后的殘差,消除市值和行業因素的影響,還要測試殘差的相關性,有相關性說明主要因素沒有完全提取出來,需要進一步提出主要影響因素。
?
2.arque-Bera檢驗基于數據樣本的偏度和峰度,評價給定數據服從未知均值和方差正態分布的假設是否成立,這里拒絕原假設,也就是殘差不服從CLM經典線性模型中MLR.6正態分布假設。
?
?
2018-7-12
https://xueqiu.com/3488649239/62074848
題目是:“怎么計算歷史某段區間的收益率,用前復權還是后復權還是都不對?講述前復權和后復權的原理。”
https://blog.csdn.net/dingming001/article/details/73823376
題目是:“殘差自回歸模型”,解釋了計算IC值的時候為什么用殘差和收益率的協方差算而不用因子的載荷和收益率算。
總結
以上是生活随笔為你收集整理的金融量化之华泰多因子估值类显著性和IC值计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【总结一下|LaTex语法】一些常用的L
- 下一篇: 阿里云SDK实现短信发送