fft谱分析的误差有哪些原因造成的?如何减小分析误差。_回归分析 | 闯荡数据江湖的武功秘籍...
社會經濟定量研究方法中用到的一些統計步驟分解到一定水平,就將是中心前期相關定量研究主題文章推送的目標;
這方面主要包括了相關關系研究、影響因素研究、綜合評價研究、效率及有效性研究、預測、競爭力研究、產業結構優化、發展戰略研究等方面的內容。
應用的方法,主要有相關分析、回歸分析、因子分析、主成分分析、偏離份額分析、方差分析、灰色關聯、層次分析、聚類分析、SWOT分析、DEA分析、產業關聯分析等等,如何掌握這些分析方法,下面和中心一起學習吧!
回歸分析測度原理
“回歸”(Regression)一詞最初是由英國生物學家兼統計學家F.Galton(F·高爾頓)在一篇著名的遺傳學論文中引入的(1877年)。他在研究中發現,具有較高身軀的雙親,或具有較矮身軀的雙親爾,其子女的身高表現為退回(即回歸)到人的平均身高趨勢。這一回歸定律后來被統計學家K·Pearson通過上千個家庭成員身高的實際調查數據進一步得到證實,從而產生了“回歸”這一名稱。
然而,現代意義上的“回歸”比其原始含義要廣得多。一般來說,現代意義上的回歸分析是研究一個變量(也稱為explained variable或因變量dependent variable)對另一個或多個變量(也稱為解釋變量explanatory variable或自變量independent variable?)的依賴關系,其目的在于通過解釋變量的給定值來預測被解釋變量的平均值或某個特定值。
具體而言,回歸分析所要解決的問題主要有:
(1)確定因變量與自變量之間的回歸模型,并依據樣本觀測值對回歸模型中的參數進行估計,給出回歸方程。
(2)對回歸方程中的參數和方程本身進行顯著性檢驗。
(3)評價自變量對因變量的貢獻并對其重要性進行判別。
(4)利用所求得的回歸方程,并根據自變量的給定值對因變量進行預測,對自變量進行控制。
相關分析
現象之間的相互聯系一般可以分為兩種不同的類型:一類為變量間的關系是確定的,稱為函數關系;而另一類變量之間的關系是不確定的,稱為統計關系。
變量之間的函數關系表達的是變量之間在數量上的確定性關系,即一個或幾個變量在數量上的變動就會引起另一個變量在數量上的確定性變動,它們之間的關系可以用函數關系 y=f(x)準確地加以描述,這里x可以是一個向量。當知道了變量x的值,就可以計算出一個確切的y值來。
變量之間統計關系,是指一個或幾個變量在數量上的變動會引起另一個變量數量上發生變動,但變動的結果不是惟一確定的,亦即變量之間的關系不是一一對應的,因而不能用函數關系進行表達。變量之間的統計關系可以用數學模型y=f(x)+μ來表示。這里的x既可以是單個變量,也可以是向量。f(x)是一個確定的函數關系,它既可以是線性的,也可以是非線性的。
當已經知道變量之間存在統計關系后,能否根據一個變量的值來預測另一個變量的平均值或個別值,或者根據給定的變量值來控制另一個變量值呢?這一問題的回答涉及到線性回歸分析。在此,必須弄清相關分析和回歸分析兩者之間的關系。
相關分析和回歸分析雖然都是研究兩個或兩個以上變量之間的關系,但二者之間既有區別又有聯系。
首先,二者的研究目的不同。前者主要研究變量之間是否存在線性關系以及這種關系的強弱程度,而后者則是在前者的基礎上進一步研究變量之間的聯系方式,以便在給定一個或幾個變量值的條件下預測或控制另一個變量的值。因此,相關分析中的變量之間的關系是對等的,而回歸分析中的變量間的地位是不對等的。在進行回歸分析時,必須明確變量間的依賴關系,即哪個變量依賴于哪個或哪些變量。一般把說明或解釋另一個變量的變量稱為解釋變量,用x表示;而作為被說明或被解釋的變量稱為被解釋變量,用y表示。
其次,兩者的假設條件不同。相關分析假設研究的兩個變量都是隨機的。事實上,只要有一個變量是確定性的,則相關系數一定為零。而回歸分析一般都假設解釋變量是確定性的,在重復抽樣中取固定的值;被解釋變量是隨機的,它有一個概率分布。回歸分析的目的就是要通過給定解釋變量的值來預測或控制被解釋變量的總體均值或個別值。
然而相關分析與回歸分析之間又有著密切的聯系。首先,在進行回歸分析之前,一般要確定變量之間的線性關系是否密切,這就要依賴相關分析。其次,變量之間的相關系數與回歸分析中的擬合程度也存在一定關系,這在后面的分析中將會看到。
值得注意的是,回歸分析所研究的變量之間的依賴關系通常是一種經驗關系,而并不一定包含因果關系。換句話說,變量之間因果關系的確立只能來自其他學科的理論根據,而非回歸分析所能解決的。
回歸分析 ?VS ?相關分析
回歸分析與相關分析是利用建立數學模型的過程和結果進行解釋和預測的重要途徑,主要用于回答一些定義明確的數值變量之間的關系問題。
所謂回歸分析(regression analysis),描述的是一個或多個自變量的變化如何引起因變量變化的一種統計分析方法。
而相關分析(correlation analysis)則是描述兩個數值變量之間的關系強度問題。回歸分析和相關分析在處理數值變量關系時可以互為補充、相輔相成。
回歸分析一般基于兩種算法,1)最小二乘法(least squaremethod,LSM),2)迭代(iteration)計算方法。實際上,最小二乘法也可以借助迭代法達到求解目標。經常用到的是普通最小二乘法(OLS)。目前看來最小二乘法是解決回歸分析問題最有效的方法,因為對于一個回歸模型而言,最重要的參數乃是斜率,而最小二乘法在斜率估計方面效果很好。
回歸分析是最為基本的定量分析工具,很多表面看來與回歸分析無關,并且貌似難以理解的數學方法,可以通過回歸分析得到明確的解釋。通過回歸分析,可以更好地理解因子分析、判別分析、自回歸分析、功率譜分析、小波分析、神經網絡分析等。
線性回歸分析的假設:
1)基本假設:預測值與觀測值之間的誤差是由外部原因隨機擾動引起的,與模型本身的性質沒有關系。因此,殘差的分布理當服從正態分布規律,具有0均值和等方差性質,即εi~WN(0,σ2)。也就是說殘差是均值為0、方差為常數的白噪聲(white noise,WN)序列。
2)默認假設:自變量之間是“正交”的,或者說是相互垂直、彼此線性無關的。
回歸分析的5大常規檢驗:
1)相關系數檢驗。相關系數用于檢驗模型線性關系的擬合效果。
2)標準誤差檢驗。標準誤差用于判斷模型的預測精度。
3)F?檢驗。F?檢驗用于判斷自變量和因變量的線性關系是否成立。
4)t?檢驗。t?檢驗用于判斷回歸系數與0是否具有顯著性差異。
5)DW?檢驗。用于判斷是否存在殘差序列相關(判斷模型的誤差是否屬于外界隨機擾動)。
回歸分析武功秘籍
所謂回歸分析法,是在掌握大量觀察數據的基礎上,利用數理統計方法建立因變量與自變量之間的回歸關系函數表達式(稱回歸方程式)。
回歸分析中,根據變量多少,可以分為一元+多元回歸分析;當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。
此外,回歸分析中,又依據描述自變量與因變量之間因果關系的函數表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數學手段化為線性回歸問題處理。
回歸分析法是定量預測方法之一。它依據事物內部因素變化的因果關系來預測事物未來的發展趨勢。由于它依據的是事物內部的發展規律,因此這種方法比較精確。測報工作中常用的是一元線性回歸和多元線性回歸模型。
回歸分析方法:
1、Linear Regression線性回歸
它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的技術之一。在這種技術中,因變量是連續的,自變量可以是連續的也可以是離散的,回歸線的性質是線性的。
線性回歸使用最佳的擬合直線(也就是回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關系。
用一個方程式來表示它,即Y=a+b*X + e,其中a表示截距,b表示直線的斜率,e是誤差項。這個方程可以根據給定的預測變量(s)來預測目標變量的值。
回歸分析
(1)直線回歸:
如果回歸分析中的殘差服從正態分布(大樣本時無需正態性),殘差與自變量無趨勢變化,則直線回歸(單個自變量的線性回歸,稱為簡單回歸),否則應作適當的變換,使其滿足上述條件。
(2)多重線性回歸:
應變量(Y)為連續型變量(即計量資料),自變量(X1,X2,…,Xp)可以為連續型變量、有序分類變量或二分類變量。如果回歸分析中的殘差服從正態分布(大樣本時無需正態性),殘差與自變量無趨勢變化,可以作多重線性回歸。
觀察性研究:可以用逐步線性回歸尋找(擬)主要的影響因素
實驗性研究:在保持主要研究因素變量(干預變量)外,可以適當地引入一些其它可能的混雜因素變量,以校正這些混雜因素對結果的混雜作用
2、Logistic Regression邏輯回歸
邏輯回歸是用來計算“事件=Success”和“事件=Failure”的概率。當因變量的類型屬于二元(1 / 0,真/假,是/否)變量時,我們就應該使用邏輯回歸。這里,Y的值從0到1,它可以用下方程表示。
上述式子中,p表述具有某個特征的概率。你應該會問這樣一個問題:“我們為什么要在公式中使用對數log呢?”。
因為在這里我們使用的是的二項分布(因變量),我們需要選擇一個對于這個分布最佳的連結函數。它就是Logit函數。在上述方程中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。
要點:它廣泛的用于分類問題。
邏輯回歸不要求自變量和因變量是線性關系。它可以處理各種類型的關系,因為它對預測的相對風險指數OR使用了一個非線性的log轉換。
為了避免過擬合和欠擬合,我們應該包括所有重要的變量。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計邏輯回歸。
它需要大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差。
自變量不應該相互關聯的,即不具有多重共線性。然而,在分析和建模中,我們可以選擇包含分類變量相互作用的影響。
如果因變量的值是定序變量,則稱它為序邏輯回歸。
如果因變量是多類的話,則稱它為多元邏輯回歸。
3、Stepwise Regression逐步回歸
在處理多個自變量時,我們可以使用這種形式的回歸。在這種技術中,自變量的選擇是在一個自動的過程中完成的,其中包括非人為操作。
這一壯舉是通過觀察統計的值,如R-square,t-stats和AIC指標,來識別重要的變量。逐步回歸通過同時添加/刪除基于指定標準的協變量來擬合模型。下面列出了一些最常用的逐步回歸方法:
標準逐步回歸法做兩件事情。即增加和刪除每個步驟所需的預測。
向前選擇法從模型中最顯著的預測開始,然后為每一步添加變量。
向后剔除法與模型的所有預測同時開始,然后在每一步消除最小顯著性的變量。
這種建模技術的目的是使用最少的預測變量數來最大化預測能力。這也是處理高維數據集的方法之一。
4、?嶺回歸
嶺回歸分析是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更可靠的回歸方法,對病態數據的耐受性遠遠強于最小二乘法。
要點:
除常數項以外,這種回歸的假設與最小二乘回歸類似;
它收縮了相關系數的值,但沒有達到零,這表明它沒有特征選擇功能
這是一個正則化方法,并且使用的是L2正則化。
數據江湖 回歸十一式
1、?穩健回歸
其主要思路是將對異常值十分敏感的經典最小二乘回歸中的目標函數進行修改。經典最小二乘回歸以使誤差平方和達到最小為其目標函數。因為方差為一不穩健統計量,故最小二乘回歸是一種不穩健的方法。為減少異常點的作用,對不同的點施加不同的權重,殘差小的點權重大,殘差大的店權重小。
2、?變系數回歸
地理位置加權
3、?偏最小二乘回歸
長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚。而偏最小二乘法則把它們有機的結合起來了,在一個算法下,可以同時實現回歸建模(多元線性回歸)、數據結構簡化(主成分分析)以及兩組變量之間的相關性分析(典型相關分析)。偏最小二乘法在統計應用中的重要性體現在以下幾個方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現多種數據分析方法的綜合應用。能夠消除自變量選取時可能存在的多重共線性問題。普通最小二乘回歸方法在自變量間存在嚴重的多重共線性時會失效。自變量的樣本數與自變量個數相比過少時仍可進行預測。
4、?支持向量回歸
能較好地解決小樣本、非線性、高維數和局部極小點等實際問題。
傳統的化學計量學算法處理回歸建模問題在擬合訓練樣本時,要求“殘差平方和”最小,這樣將有限樣本數據中的誤差也擬合進了數學模型,易產生“過擬合”問題,針對傳統方法這一不足之處,SVR采用“ε不敏感函數”來解決“過擬合”問題,即f(x)用擬合目標值yk時,取:f(x) =∑SVs(αi-α*i)K(xi,x)
上式中αi和α*i為支持向量對應的拉格朗日待定系數,K(xi,x)是采用的核函數[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數周圍的ε“管壁”上的特征矢量),SVs
為支持向量的數目.目標值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時,即認為進一步擬合是無意義的。
5、?核回歸
核函數回歸的最初始想法是用非參數方法來估計離散觀測情況下的概率密度函數(pdf)。為了避免高維空間中的內積運算? ?? ?由Mercer條件,存在映射函數a和核函數K(?,?),使得:=K(xi ,x)
采用不同的函數作為SVM的核函數K (x i,x),可以實現多種從輸入空間到特征空間的非線性映射形式
6、?嶺回歸
嶺回歸分析是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更可靠的回歸方法,對病態數據的耐受性遠遠強于最小二乘法。
7、?半參數回歸
模型既含有參數分量又含有非參數分量,其參數部分用來解釋函數關系已知的部分,它是觀測值中的主要成分,而其非參數部分則描述函數關系未知,無法表達為待定參數的函數部分。
8、?自回歸
例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,
例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內生變量)作為解釋變量出現在方程的右端。這種包含了內生變量滯后項的模型稱為自回歸模型。
9、正交回歸
因素水平值在區間[Zj1, Zj2]內變化,經編碼之后,編碼值xi在區間[-1,+1]間變化,將響應值y原來對Z1, Z2……Zm的回歸問題,轉化為y對x1,x2……xm的回歸問題。它的主要優點是可以把實驗或計算的安排、數據的處理和回歸方程的精度統一起來加以考慮,根據實驗目的和數據分析來選擇實驗或計算點,不僅使得在每個實驗或計算點上獲得的數據含有最大的信息,從而減少實驗或計算次數,而且使數據的統計分析具有一些較好的性質,以較少的實驗或計算建立精度較高的回歸方程。
10、逐步回歸
實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法?;舅悸窞?#xff0c;先確定一初始子集,然后每次從子集外影響顯著的變量中引入一個對y 影響最大的,再對原來子集中的變量進行檢驗,從變得不顯著的變量中剔除一個影響最小的,直到不能引入和剔除為止。
11、主成分回歸
在統計學中,主成分分析是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐標系統中,使得任何數據投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。
首先對X陣進行主成份分析,T陣的維數可以與X陣相同,如果使用整個T陣參加回歸,這樣得到的結果與多元線性回歸沒有多大的差別。因為主成分(新變量)是原變量的線性組合。前面的k個主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關。因此參與回歸的是少數主成分組成的矩陣。在維數上遠小于X。主成分回歸通過對參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線性回歸中的共線性問題。主成分回歸能夠充分利用數據信息,有效地提高模型的抗干擾能力。
來源:計量經濟學服務中心綜合整理,版權歸原作者所有。
總結
以上是生活随笔為你收集整理的fft谱分析的误差有哪些原因造成的?如何减小分析误差。_回归分析 | 闯荡数据江湖的武功秘籍...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js 连接mysql_搭建node服务(
- 下一篇: 正则 不能有中文逗号_Python爬虫教