统计模型 | 学习笔记
一.概述
任何統計模型都是對現實世界復雜聯系的簡化
根據目的分類
聚類方法(細分類模型):市場細分,協同推薦
預測方法:回歸模型,時間序列模型
關聯歸納方法:購物籃分析,序列分析
根據方法原理分類
基于傳統統計模型的推斷性方法:在抽樣理論的支持下,首先假定預測變量和影響因素間呈現某種公式化的聯系,然后采用假設檢驗的方法來驗證相應的假設是否成立,并給出相應的參數估計值
基本機器識別技術的自動化方法:也被稱為非推斷性方法,沒有什么前提假設,就是從數據中尋找關聯,然后采用驗證數據集對找到的關聯加以驗證
損失函數:用于衡量模型的信息損失或者預測錯誤程度的函數
模型擬合的最終目標是使得損失函數達到最小值
分類:錯分比例(及其所導致的損失)
? ? ? ? ? ?分類預測正確率
? ? ? ? ? ?熵
連續:殘差所代表的信息量的綜合(及其所導致的損失)
? ? ? ? ? ?最小二乘法的殘差平方和
? ? ? ? ? ?離均差絕對值之和(最小一乘法)
凸函數:局部最小值即全局最小值
非凸函數:存在多個局部最小值/局部最優解
顯然,凸函數在求解極值時容易很多
正則化:控制模型復雜度
模型應該復雜到什么程度才合適?在理想的損失函數的基礎上增加一個懲罰項,用于表達模型復雜程度所帶來的影響,以避免模型為了追求精確性而過于復雜
原損失函數 = 模型精確性衡量指標
新損失函數 = 模型精確性衡量指標 + 模型復雜度衡量指標
新損失函數 = 模型精確性衡量指標 + landa * 模型復雜度衡量指標
一個東西,三個名稱:正則化(機器學習),模型懲罰項(統計學),范數(數學)
基本作用:保證模型盡可能簡單,避免參數過多導致過擬合
? ? ? ? ? ? ? ? ? 約束模型特性,加入一些先驗知識,例如稀疏,低秩等
正則化函數一般是模型復雜度的單調遞增函數:模型越復雜,代價越大
L0正則化:復雜度指標為模型中非零參數的個數,容易理解,但數學上很難求解
L1正則化:模型中各個參數絕對值(加權)之和,幾何學上的曼哈頓距離,主要用于特征選擇/篩選變量(實例:lasso回歸)
L2正則化:為模型各個參數平方(加權)之和(的開方),幾何學上的歐幾里得距離,主要用于防止過擬合(實例:嶺回歸)
二.回歸
希望描述某個群體的月收入狀況,該如何給出相應的信息?
除了給出平均水平以外,還應當給出離散程度
均數:能夠表示集中趨勢
標準差:能夠表示離散趨勢
單因變量回歸類模型的基本框架
三.線性回歸
研究一個連續性變量(因變量)的取值隨著其它變量(自變量)的數值變化而變化的趨勢
通過回歸方程解釋兩變量之間的關系顯得更為精確,可以計算出自變量改變一個單位時因變量平均改變的單位數量,這是相關分析無法做到的
除了描述兩變量的關系以外,通過回歸方程還可以進行預測和控制,這在實際工作中尤為重要
線性回歸假定自變量對因變量的影響強度始終保持不變
常用指標
決定系數:模型整體價值的衡量指標
? ? ? ? ? ? ? ? ? 相應的相關系數的平方
? ? ? ? ? ? ? ? ? 反映因變量的全部變異中能夠通過回歸關系被自變量解釋的比例
偏回歸系數:反映某一個自變量在數量上對因變量的影響強度
? ? ? ? ? ? ? ? ? ? ? 相應的自變量上升一個單位時,因變量取值的變動情況
標化偏回歸系數:量綱問題
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?用于自變量間重要性的比較
四.分類
五.聚類?
按照個體(案例或者變量)的特征將它們分類,使同一類別內的個體具有盡可能高的同質性,而類別之間則具有盡可能高的異質性,隨后總結每一類的基本特征,從而更清晰地了解問題的實質
無因變量,無監督學習方法
聚類分析前所有個體所屬的類別是未知的,類別個數一般也是未知的,分析的依據就是原始數據。可能事先沒有任何有關類別的信息可參考,當然如果有的話更好
本質是一種統計描述方法,或者說是一種建立假設而不是驗證假設的方法
往往被作為一個中間步驟
基本原理
為了得到比較合理的分類,首先要采用適當的指標來定量地描述研究對象之間的聯系的緊密程度
直觀的理解為按空間距離的遠近來劃分類別
假定研究對象均用自變量所構成的高維空間中的點來表示
在聚類分析中,一般的規則是將距離較小的點歸為同一類,將距離較大的點歸為不同的類
常見的是對個體分類,也可以對變量分類,此時一般使用相似系數作為距離測量指標
常見分類
①劃分聚類:K-Means
將數據集分割為k個部分,然后基于統計指標進行優化調整
計算速度相對比較快
適用于中小規模的數據庫中的球狀類別
②層次聚類:BIRCH
依次將數據點合并入同一類別,結果由不同層次的聚類結果組成
聚類結果較豐富,不同層次的結果間有嵌套的關系
計算量相對較大
③基于密度:DBSCAN
只要一個區域中的點的密度大過某個閾值,就應當被歸入同一類中
擅長發現各種特殊形狀的類
計算量較大
④基于網格:STING
首先將數據空間劃分成為有限個單元的網格結構,然后基于單元格進行聚類
處理速度很快
⑤基于模型:SOM,高斯混合模型
六.主成分分析
只是一種中間手段,其背景是研究中經常會遇到多指標的問題,這些指標間往往存在一定的相關,直接納入分析不僅復雜,變量間難以取舍,而且可能因多重共線性而無法得出正確結論
主成分分析的目的就是通過線性變換,將原來的多個指標組合成相互獨立的少數幾個能充分反映總體信息的指標,便于進一步分析,盡可能保留原始變量的信息,且彼此不相關
主成分的提取
提取出的每個主成分都是原來多個指標的線性組合
原則上如果有n個變量,則最多可以提取出n個主成分,但將它們全部提取出來就失去了該方法簡化數據的實際意義(往往提取出前2~3個主成分已包含了90%以上的信息,其他可以忽略不計)
提取出的主成分包含主要信息即可,不一定非要有準確的實際含義
用途
主成分評價:當進行多指標的綜合評價時,用主成分分析將多指標中的信息集中為若干個主成分,然后加權求和,得到綜合評價指數
主成分回歸:通過存在共線性的自變量進行主成分分析,從而在提取多數信息的同時解決共線性問題
python實現
#主成分分析 #用協方差陣而不是相關系數陣進行提取 sklearn.decomposition.PCA()#因子分析 #方法太簡單,不能進行因子旋轉 sklearn.decomposition.FactorAnalysis()解決變量間多重共線性
新變量集能夠更有利于簡化和解釋問題
有太多的變量,希望能夠消減變量,用一個新的,更小的由原始變量集組合成的新變量集作進一步分析
探討變量內在聯系和結構
觀測變量之間存在相互依賴關系
這反映的實際上是變量間的內在關聯結構?
總結
以上是生活随笔為你收集整理的统计模型 | 学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10资源管理器崩溃导致黑屏
- 下一篇: 自动生成excel中sheet目录导航