论文阅读——基于观测数据的时间序列因果推断综述
國防科大2022年3月的綜述
?1.Granger
多元Granger: VAR+條件集,P(X|Y)=>條件VAR模型,比較y與y^來判定因果關系。
(加入條件集,消除其它變量影響)
條件Granger:用矩陣表示參數,簡化計算。并提出基于檢驗的因果判定方法。
檢驗方法的創新,或者先變換空間在創新都能提高Granger適用性。
Lasso-GRanger:添加Lasso進行變量篩選,降低計算復雜度。
Copular-Granger:結合Lasso-Granger和潛在因果模型,用D-分離排除混雜因素,用Granger的“非超常分布”識別因果關系。(有點意思——那可以結合反事實計算嗎?)
2.信息論
這些方法課衡量因果關系的強度,但對方向性未準確。
互信息:一個變量 X中包含的關于另一個變量Y的信息量;或者說X由于已知Y而減少的不確定性
它是一個非負量,如果MI顯著不等于 0,則認為兩個變量之間存在因果關系,反之亦然。
缺點:由于互信息具有對稱性,因此在確定因果關系后還需要其他方法進一步定向。(可以結合Granger和互信息嗎?感覺有希望)
傳遞熵:?TE是一種度量因果關系的非對稱指標。如果 X和Y的歷史信息所決定的
X的不確定度,小于單獨通過 X的歷史信息所決定的 X的不確定度,那么Y就是 X的原
因,即
缺點:TE在應用于非平穩序列因果推斷時精度較低,高維序列中的變量選擇也制約了其計算效率。?
(接下來的兩篇文章可以看看,比較新,分別是2020和2022的文章??梢粤私飧赐评矸椒?#xff09;
Rashidi等[28]提出了符號動態歸一化傳遞熵(Symbolic Dynamic-based Normalized Direct TE,SDNDTE)并將其應用于復雜系統根源變量定位中。SDNDTE首先利用歸一化操作排除變量自信息對因果推斷造成的影響,然后將時間序列轉化為基于頻率計數的狀態轉移矩陣,通過符號發射矩陣的估計代替傳統多維核概率密度函數擬合方法。SDNDTE能不僅能推斷多元非平穩序列中的因果關系,還能有效降低計算復雜度、減少虛假因果的出現。此外,Zeng等[29]提出了歸一化有效傳遞
熵(Normalized Effective TE,NETE),NETE在保持數據概率分布不變的情況,將傳遞熵減
去隨機打亂數據后得到的隨機傳遞熵,以消除時間序列的噪聲和非平穩性造成的影響。?
3.因果網絡結構學習
Huang等[45]提出了一種用于非平穩和異構時間序列因果推斷的CD-NOD(Constraint-based causal Discovery from?Nonstationary/heterogeneous Data)方法。該方法利用變量代理和條件獨立性檢驗重構因果網絡框架,然后利用潛在因果模型中隱含的數據分布進行定向。相比此前的方法,CO-NOD是非參數的,對數據分布沒有嚴格限制,且不依賴于時間窗口分割,還能在帶有混雜因素的異質數據中識別因果關系。
傳統的因果網絡結構學習算法依賴于因果充分性假設[5],即假設系統中不存在未觀測的
共同驅動因素,但真實系統中往往存在未觀測變量(隱變量)。
2020年,Runge[52]又提出了PCMCI+算法,通過分離存在時延和同期的條件集,以及修改單個條件獨立性測試的條件集,可以在高召回率的前提下有效減少虛假因果,降低時間復雜度。
4.基于結構因果模型的方法?
第一代:LiNGAM
初始條件:線性,無未觀測的共因,誤差服從非高斯分布。
因果方向判斷方法:因果機制的不對稱性和因果機制的不對稱性。
5.基于非線性狀態空間模型的方法
2012年,Sugihara等[66]提出了收斂交叉映射(Convergent Cross Mapping, CCM)方法,該
方法基于Takens定理[67],通過狀態空間重構推斷因果關系.
什么是Takens定理?(需要補充)
如果變量 X可以通過變量Y的時延嵌入重構系統來預測,那么 X和Y之間就存在因果效應。
基于非線性狀態空間模型的時間序列因果推斷方法假設交互作用發生在一個潛在的動力系統中,然后基于Takens定理和非線性狀態空間重構來推斷因果關系。Takens定理可以用于重構時間序列中的動力學信息。它證明在滿足某些條件時,從一個吸引子到重構空間的映射是一一對應的,只要找到合理的嵌入維數,就能實現相空間中軌道的重構,并保持其原來的微分結構不變。?
方法一:NLIM?非線性相互依賴度量
?方法二:非線性相互依賴
?Krakovská和Jakubík[74]利用重構狀態空間預測原理,提出了基于交叉預測(Cross?
Prediction,CP)和混合預測(Predictability Improvement,PI)的因果關系推斷方法。其中
CP方法通過自預測和交叉預測的平均絕對誤差判定因果關系,PI則通過兩種混合優化預測
方法判定因果關系。CP和PI能適用于多變量系統,還能用于因果推斷結果的敏感性分析。
(這兩篇文章可以看看,應該與預測有關)?
Liu等[81]利用條件熵檢測反饋驅動的交易和反映市場回報流的“自因果性”,并使用傳遞熵識別新聞情緒和市場回報的信息流相關的交易活動。
(這篇文章可以看看,與反饋機制有關)
Li和Convertino[91]提出一種互信息和傳遞熵的最優信息流生態系統模型,通過從時間序列中提取復雜生態系統的預測因果網絡,提供廣泛的生態信息。Oh等[92]提出一種相對符號傳遞熵來研究南大洋的南極繞極波大規模氣候現象,并解釋了厄爾尼諾-南方濤動的特征。?
(一個是預測因果網絡,什么樣的網絡?)
(相對符號傳遞熵,如何進行符號推理?)
Zeng等[96]利用基于歸一化修正傳遞熵和改進的因果網絡結構學習算法,將遙測參數因果關系與注意力機制的LSTM相結合,實現了低誤報率的航天器遙測數據異常檢測。
(2022年的文章,可能用處不大)
Tian等[99]提出一種基于CCM的重大工業事故主因告警和根因追蹤方法,利用CCM識別變量之間的因果方向和間接因果關系,作為后續告警根因追蹤的依據。
(用CCM進行識別,到底根因到哪個階段?)
總結:
1.這篇文章總結的還不錯,比之前大連理工任偉杰等人的綜述詳細,深入些。
2.對于我想要的內容,還是沒有太大的幫助。
3.選取的文章都比較新,想了解相關方向,值得去看看。
4.現有的推理還是指圖上的推理,未總結與應用結合的推理方式。
總結
以上是生活随笔為你收集整理的论文阅读——基于观测数据的时间序列因果推断综述的全部內容,希望文章能夠幫你解決所遇到的問題。