【数据挖掘知识点七】相关与回归分析
相關與回歸分析
客觀現象之間的數量聯系存在兩種不同類型:一種是函數關系,另一種是相關關系。當一個或幾個變量取一定的值時,另一個變量有確定值與之對應,這種關系稱為確定性的函數關系,一般把作為影響因素的變量稱為自變量,把發生對應變化的變量稱為因變量。當一個或幾個相互聯系的變量取一定數值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規律在一定的范圍內變化,變量間的這種相互關系,稱為具有不確定性的相關關系。
變量之間的函數關系和相關關系,在一定條件下是可以互相轉化的。客觀現象的函數關系可以用數學分析的方法去研究,而研究客觀現象的相關關系必須借助于統計學中的相關和回歸分析方法。
客觀現象的相關關系,按相關的程度可分為完全相關、不完全相關、不相關,按相關的方向分為正相關和負相關,按相關的形式分為線性相關和非線性相關,按所研究的變量多少分為單相關、復相關、偏相關。
相關分析與回歸分析是研究現象之間相關關系的兩種基本方法。相關分析,是用一個指標來表明現象間相互依存的密切程度。回歸分析,是根據相關關系的具體形態,選擇一個合適的數學模型,來近似地表達變量間的平均變化關系。
相關分析和回歸分析有共同的研究對象,可互相補充,相關分析依靠回歸分析來表明現象數量相關的具體形式;而回歸分析依靠相關分析來表明現象數量變化的相關程度。只有當變量之間存在高度相關時,進行回歸分析尋求其相關的具體形式才有意義,基于這個原因,回歸分析和相關分析也一同合稱為相關關系分析。
不過回歸分析和相關分析在研究目的和方法上還是有區別的。相關分析研究變量之間相關的方向和相關的程度,但是相關分析不能指出變量間相關關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況。回歸分析則研究變量之間相互關系的具體形式,對具有相關關系的變量之間的數量聯系進行測定,從而為估算和預測提供一個重要方法。因此,相關分析不必確定變量中那個是自變量,那個是因變量,其所涉及的變量可以都是隨機變量;而回歸分析必須實現研究確定具有相關關系的變量中那個為自變量那個為因變量。一般地說,回歸分析中因變量是隨機的,而把自變量作為研究時給定的非隨機變量。
相關圖,或說是散點圖,是研究相關關系的直觀工具,一般在進行詳細的定量分析之前,可以先利用它對現象之間存在的相關關系的方向、形式和密切程度做大致的判斷。
單相關分析是對兩個變量之間的線性相關程度進行分析。單相關分析所采用的尺度為單相關系數,簡稱相關系數。
在實際的客觀現象分析研究中,相關系數一般都是利用樣本數據計算的,因而帶有一定隨機性。樣本容量越小其可信程度就越差,因此也需要進行檢驗。相關系數的顯著性檢驗問題可分為兩類:一是對總體相關系數是否等于0進行檢驗;二是對總體相關系數是否等于某一個給定的不為0的數值進行檢驗。
當變量之間存在顯著的相關關系時,可以利用一定的數學模型對其進行回歸分析。在回歸分析中,最簡單的模型是只有一個因變量和一個自變量的線性回歸模型,即一元線性回歸模型,又稱簡單線性回歸模型。該模型假定因變量Y主要受自變量X的影響,它們之間存在這近似的線性函數關系,即有:
回歸模型中的參數估計出來之后,需進行檢驗。回歸模型的檢驗包括理論意義檢驗、一級檢驗、二級檢驗。一級檢驗也稱為統計學檢驗,是利用統計學中抽樣理論來檢驗樣本回歸方程的可靠性,具體可分為擬合程度評價和顯著性檢驗。二級檢驗又稱為經濟計量學檢驗,是對標準線性回歸模型的假定條件能否得到滿足進行檢驗,具體包括序列相關檢驗、異方差性檢驗、多重共線性檢驗等。所謂擬合程度,是指樣本觀測值聚集在樣本回歸線周圍的緊密程度。顯著性檢驗包括兩方面,一個是對各回歸系數的顯著性檢驗,二是對整個回歸方程的顯著性檢驗。
建立回歸模型的重要目的是進行預測。如果所擬合的樣本回歸方程經過檢驗,被認為具有經濟意義,同時被證明具有較高的擬合程度,就可以利用其進行預測。預測可能存在誤差,主要來自模型本身中的誤差因素、回歸系數估計值和真值不一致、自變量X的設定值與實際值的偏離、未來總體回歸系數發生變化四個方面。
研究在線性相關條件下,兩個和兩個以上自變量對一個因變量的數量變化關系,稱為多元線性回歸,表現這一數量關系的數學公式,稱為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴展,基本原理類似,計算復雜度增大。
總結
以上是生活随笔為你收集整理的【数据挖掘知识点七】相关与回归分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘知识点六】假设检验
- 下一篇: 泰勒级数的理解