数学建模之时间序列分析
時間序列分析
基本概念:時間序列也稱動態序列,是指將某種現象的指標數值按照時間順序排列而成的數值序列。時間序列分析大致可分成三大部分,分別是描述過去、分析規律和預測未來,本講將主要介紹時間序列分析中常用的三種模型:季節分解、指數平滑方法和ARIMA模型,并將結合spss軟件對時間序列數據進行建模。
組成要素:1、時間要素;2、數值要素;
時間序列數據:對同一對象在不同時間連續觀察所取得的數據。
時間序列分類:
1、時期時間序列
數值要素反映現象在一定時期內發展的結果。
2、時點時間序列
數值要素反映現象在一定時點上的瞬間水平。
注:根據時間和數值性質的不同
時期和時點時間序列區別:時期序列可加,時點序列不可加。
時期序列中的觀測值反映現象在一段時期內發展過程的總量,不同時期的觀測值可以相加,相加結果表明現象在更長一段時間內的活動總量; 而時點序列中的觀測值反映現象在某一瞬間上所達到的水平,不同時期的觀測值不能相加,相加結果沒有實際意義。
時間序列的數值變化規律:
長期變動趨勢、季節變動規律、周期變動規律、不規則變動(隨機擾動項)
注1:一個時間序列往往是以上四類變化形式的疊加。
注2:以上四種變動就是時間序列數值變化的分解結果。有時這些變動會同時出現在一個時間序列里面,有時也可能只出現一種或幾種,這是由引起各種變動的影響因素決定的。正是由于變動組合的不確定性,時間序列的數值變化才那么千變萬化。四種變動與指標數值最終變動的關系可能是疊加關系,也可能是乘積關系。
長期趨勢:T:
長期趨勢(Secular trend,T)指的是統計指標在相當長的一段時間內,受到長期趨勢影響因素的影響,表現出持續上升或持續下降的趨勢,通常用字母T表示。例如,隨著國家經濟的發展,人均收入將逐漸提升;隨著醫學水平的提高,新生兒死亡率在不斷下降。
季節趨勢:S:
季節趨勢(Seasonal Variation,S)是指由于季節的轉變使得指標數值發生周期性變動。這里的季節是廣義的,一般以月、季、周為時間單位,不能以年作單位。例如雪糕和棉衣的銷量都會隨著季節氣溫的變化而周期變化;每年的長假(五一、十一、春節)都會引起出行人數的大量增加。
循環變動:C:
循環變動(Cyclical Variation,C)與季節變動的周期不同,循環變動通常以若干年為周期,在曲線圖上表現為波浪式的周期變動。這種周期變動的特征表現為增加和減少交替出現,但是并不具嚴格規則的周期性連續變動。最典型的周期案例就是市場經濟的商業周期和的整個國家的經濟周期。
不規則變動:I:
不規則變動(Irregular Variation,I)是由某些隨機因素導致的數值變化,這些因素的作用是不可預知和沒有規律性的,可以視為由于眾多偶然因素對時間序列造成的影響(在回歸中又被稱為擾動項)。
疊加模型和乘積模型:
(1)如果四種變動之間是相互獨立的關系,那么疊加模型可以表示為:
Y=T+S+C+I
(2)如果四種變動之間存在相互影響關系,那么應該使用乘積模型:
Y=TSC*I
Y:指標數值的最終變動;
T:長期趨勢變動;
S:季節變動;
C:循環變動;
I:不規則變動;
注1:數據具有周期性時才能使用時間序列分解,例如數據是月份數據(周期為12)、季度數據(周期為4) ,如果是年份數據則不行。
注2:在具體的時間序列圖上,如果隨著時間的推移,序列的季節波動變得越來越大,則反映各種變動之間的關系發生變化,建議使用乘積模型;反之,如果時間序列圖的波動保持恒定,則可以直接使用疊加模型;當然,如果不存在季節波動,則兩種分解均可以。
spss處理時間序列中的缺失值:
1、缺失值發生在時間序列的開頭或者尾部,可采用直接刪除的方法;
2、缺失值發生在序列的中間位置,則不能刪除(刪除后原有的時間序列會錯位),可采用替換缺失值的方法。
替換缺失值的五種方法:
1、序列平均值:用整個序列的平均數代替缺失值;
2、臨近點的平均值:用相鄰若干個點的平均數來替換缺失值(默認為兩個點);
3、臨近點的中位數:用相鄰若干個點的中位數來替換缺失值(默認為兩個點);
4、線性插值:用相鄰兩個點的平均數來替換缺失值;
5、鄰近點的線性趨勢:將時期數作為x,時間序列值作為y進行回歸,求缺失點的預測值;
spss軟件定義時間變量:
時間序列圖:
季節性分解:
結果解讀:
畫出分解后的時序圖:
時間序列分析:
包含:
1、描述過去:描述時間序列的動態變化;
2、分析規律:揭示時間序列數值變化背后的規律;
3、預測未來:依據數值變化規律預測未來數值趨勢;
具體步驟:
1、作時間序列圖;
2、 判斷時間序列包含的變動成分;
3、時間序列分解(有周期性且包含長期趨勢、季節變動或循環變動);
4、建立時間序列分析模型;
5、預測未來的指標數值。
建立時間序列分析模型:
spss官方文檔的“翻譯”:
(1)給我一個時間序列,我就能自動幫你找到適合的擬合模型;
(2)我提供模型有兩類,一類是指數平滑模型,另外一類是ARIMA模型;
(3)我可以識別你數據中的異常值,當然需要你來手動指定。
指數平滑模型類型及簡介:
simple模型:
平滑系數𝛼的選取原則:
1、如果時間序列具有不規則的起伏變化,但長期趨勢接近一個穩定常數,α值一般較小(取0.05‐0.02之間)
2、如果時間序列具有迅速明顯的變化傾向,則α應該取較大值(取0.3‐0.5)
3、如果時間序列變化緩慢,亦應選較小的值(一般在0.1‐0.4之間)
實際上,spss的專家建模如果選擇了simple模型用來估計,那么軟件會幫我們自動選取一個適合的平滑系數使得預測誤差最小。
注:只能預測一期,這是由我們的公式所決定的。(x(t+1)=α*x(t)+(1-α)*x(t))
線性趨勢模型(linear trend):
阻尼趨勢模型(Damped trend):
簡單季節性(Simple seasonal):
溫特加法模型(Winters’ additive):
溫特乘法模型(Winters’ multiplicative):
一元時間序列分析的模型:
時間序列的平穩性(stationary series):
差分方程:將某個時間序列變量表示為該變量的滯后項、時間和其他變量的函數,這樣的一個函數方程被稱為差分方程。
差分方程的特征方程:
差分方程的齊次部分:只包含該變量自身和它的滯后項的式子。
滯后算子:
AR§模型(auto regressive):
平穩條件:
MA(q)模型(moving average):
MA(q)模型的平穩性:
只要q是常數,那么MA(q)模型一定是平穩的。
MA模型和AR模型的關系:
我們可以將1階移動平均模型轉換為無窮階的自回歸模型,這一性質稱為移動平均模型的可逆性;類似的,我們在某些條件下(可逆性條件)也可以將MA(q)模型也轉換為無窮階的自回歸過程。
一般地,任何經濟變量的時間序列都可以自回歸過程來描述。但在模型分析的實踐中,為簡化估計參數的工作量,我們當然希望模型當中的參數盡可能地少。于是便有了引進移動平均過程MA(q)的必要。
ARMA(p,q)模型:
自回歸移動平均模型(Autoregressive Moving Average,ARMA),就是設法將自回歸過程AR和移動平均過程MA結合起來,共同模擬產生既有時間序列樣本數據的那個隨機過程的模型。
ARMA(p,q)模型的平穩性:
一般,我們可以通過觀察時序圖來判斷時間序列是否平穩,當然,也有相應的假設檢驗方法能幫助我們對數據的平穩性進行檢驗(由于第三種情況幾乎不會發生,因此我們只需要檢驗時間序列是單位根還是平穩的即可)。例如:Augmented Dickey‐Fuller單位根檢驗(ADF 檢驗)、KPSS檢驗、PP檢驗。
ACF自相關系數:
PACF偏自相關函數
AR(1)模型(系數符號相反): ACF逐漸衰減,即拖尾;PACF一階后截尾;
MA(1)模型: ACF一階后截尾;PACF逐漸衰減,即拖尾;
AR(2)模型: ACF逐漸衰減,即拖尾;PACF二階后截尾;
ARMA(1,1)模型: ACF和PACF均拖尾;
模型選擇:AIC和BIC準則(選小原則):
過擬合問題:加入的參數個數越多,模型擬合的效果越好,但這卻是以提高模型復雜度
為代價的。因此,模型選擇要在模型復雜度與模型對數據的解釋能力之間尋求最佳平衡。
赤池信息準則(Akaike Information Criterion,AIC):
日本統計學家赤池弘次在1974年提出
𝑨𝑰𝑪 =𝟐(模型中參數的個數)- 𝟐𝒍𝒏(模型的極大似然函數值)
貝葉斯信息準則(Bayesian Information Criterion,BIC):
由Schwartz在1978年根據貝葉斯理論提出
𝑩𝑰𝑪 =𝒍𝒏 (𝑻)(模型中參數的個數)- 𝟐𝒍𝒏 (模型的極大似然函數值)
樣本個數用T表示
模型中參數的個數n:反映模型的復雜程度;
模型的極大似然函數值:反映模型對于數據解釋(擬合)程度。
注:AIC和BIC是選小原則,我們要選擇使得AIC或BIC最小的模型。(BIC對于模型的復雜程度的懲罰系數更大,因此BIC往往比AIC選擇的模型更簡潔)
檢驗模型是否識別完全:
估計完成時間序列模型后,我們需要對殘差進行白噪聲檢驗,如果殘差是白噪聲,則說明我們選取的模型能完全識別出時間序列數據的規律,即模型可接受;如果殘差不是白噪聲,則說明還有部分信息沒有被模型所識別,我們需要修正模型來識別這一部分的信息。
Ljung and Box 在1978年提出的Q檢驗能幫助我們檢驗殘差是否為白噪聲:
ARIMA(p,d,q)模型:
SARIMA(Seasonal ARIMA)模型:
到目前為止,我們只關注非季節性數據和非季節性ARIMA模型。然而,ARIMA模型也能夠對廣泛的季節數據進行建模。
季節性ARIMA模型是通過在ARIMA模型中包含額外的季節性項而生成的,其形式如下:
自動檢測異常值的方法:
操作步驟:
注1:預測值和擬合值是不相同的,預測值是將樣本外年份的數據帶入模型計算得到的,而擬合值是將樣本的年份重新帶入模型計算得到的。
注2:這里保留殘差的ACF和PACF圖形可以幫助我們判斷殘差是否為白噪聲,即該時間序列是否能被模型識別完全。
常用的評價指標:
注1:一般比較兩個模型的好壞,我們可以使用平穩的R方(文檔上翻譯成了固定的R方)或者標準化BIC(BIC準則),這兩個指標既考慮了擬合的好壞,又考慮了模型的復雜度;
注2:R方可用來反映線性模型擬合的好壞,越接近于1擬合的越準確。
總結
以上是生活随笔為你收集整理的数学建模之时间序列分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数字图像处理(dip)
- 下一篇: 百度谷歌离线地图解决方案(离线地图下载)