2019年上海市数学建模讲座笔记(2)概率统计模型
概率統計模型講座筆記
概率統計模型占比例越來越大,大數據時代統計方面的問題反映在建模中
思考:數據的處理,算法時間復雜度注意
常用統計方法
多元統計分析工具,出鏡率很高
【1】假設檢驗
分為:參數假設檢驗和非參數假設檢驗
【2】方差分析ANOVA
備注:這里原理記錄的比較粗糙,請讀者海涵,因為這些講座本身是讓學生從整體,從宏觀上進行了解,進行把握。所以,以下筆記可能有點跳躍,缺少必要的知識點。
功能:很好反應統計的思想
單因素方差分析 one way ANOVA
問題導出:養雞增重研究:做實驗 ,區分飼料對雞重量的影響
問題一般化:
現在有三種飼料,實際問題不止三種,飼料是因素 ,一般化為n種因素 。
下面兩個假設
所有的ai等于0,有的飼料好,有的飼料差
為了數學處理的方便,需要
第二個假設:epslo服從正態分布,為了檢驗所需要
老師給的tips:模型需要后面來寫,后面在有眉目的時候需要不斷比較,給出假設,不是一上來就詳細地在論文上寫。
假設檢驗: H0:所有的ai等于零
特別:平方和分解
統計思想的角度,特別重要
所有的因素 Ai ,每一行 得到y1.的平均值,手機里面有照片
平方和分析:
兩個求和 y平均養的雞的平均重量和 miu不一樣,miu是品種
ST 整齊劃一 值很小,反應個體總差異
是什么造成的呢?
是飼料還是個體
現在著重飼料
從代數角度:加一項減一項
(a+b)^2拆分,交叉項等于零
yi.-y平均, 得到是不同種飼料和平均差異
前面是個體差異
記為 Se 個體差異 SA 因素造成的差異
這個方法是平方和分解
任務是偵測SA這個因素是不是顯著,看SA和Se之間占比大小,只有SA比Se相差很大情況下,才有用
除以自由度,平均一下 ,F=MSA/MSe
F越大,越顯著
假設:正態分布,F就是F分布
如果不是正態分布,不是F分布
統計思想有了,下面看競賽真題
2012年高教社杯 競賽A題 葡萄酒的評價
(粗略的講解了一下)
品評葡萄酒質量。
問題:一批酒,兩組品酒師,一組10個人,分別對酒打分,葡萄酒好壞也不知道。
第一個問題:兩組評價有無差異,那一組更可靠
假設檢驗的問題
如果是正態分布,如果不是正態總體需要非參數檢驗
檢驗出來略有差異,
第二個問題:哪一組更可靠
答案不一樣,怎么思考這道題呢?
大多數人考慮方差,波動小,同一個葡萄酒觀點比較接近,就認為是好的隊。其實不夠
只考慮了一個方面
用方差分析的思想:評判員的一致性還要考慮葡萄酒的一致性
分開考慮 比較F比。F比大的,評委更靠譜一點
以上是關于賽題的一些討論
【3】回歸分析
掌握:回歸分析
【4】判別分析
美賽出過題,或多或少有很多
人工智能和判別分析有關
蠓的分類 198幾年競賽題
可以分類
用數據圖表述
AF 和APF兩種類
橫坐標:觸角長度
縱坐標:翅膀長度
建立判別準則,判別不同種類的蠓
第二個問題,測量兩個長度,判斷是哪一個類型
第三個問題:如果Apf是益蟲,Af是害蟲,如何對判別做出修正。
判別分析已經完全解決了這類問題
直觀上來講 畫一條線 來分類
判別分析介紹距離判別,貝葉斯判別,fisher判別
現在最流行的貝葉斯判別
(1)貝葉斯統計思想:本質上害蟲看成益蟲 造成的損失和 益蟲看成害蟲造成的損失是不對等的。 整體上造成的損失最小。思路
(2)fisher觀點:降維
直觀畫線,判別分析最大難度不是蠓的分類,因為只有兩個指標,難度是指標不止兩個,指標是n個,出現多維指標
空間都沒有感覺,難度在這兒。
提出思路:降維 投影
講一下思想:
降維有技巧,從二維入門,已經不需要降維了。從二維分析為講問題方便
一個方法:坐標軸旋轉,投影到軸上,也可以分的很開
類推,從三維降維到二維,找到一個方向,一個角度
思想:
第一個:兩個指標:組間距,組內距 組間距盡量大,組內距盡量小。
很多組,平均值之間的距離越大越好
但是組很多,需要組平均值 組間距:平方和
這個也是方差分析的思想:剛才的F,組間距和組內距
【5】聚類分析
經常用
【6】主成分分析
老師提到:出題老師出題的時候會考慮,有思路:這道題學生應該怎么做
有的題目和主成分不相干還有人用這種方法來做。
第一:主成分有用,有的可以用,有的不能用。
建模的tips:
模型起作用,需要回答原始問題
寫出幾個模型,需要寫出模型的優缺點,說明哪一個解決什么問題
主成分分析使用:
和fisher 大同小異:降維,減少指標的個數
舉例美賽的例子
毒品,什么時候政府干預,有數據,得出毒品起源地在哪里。
大量的指標,精煉出來:指標精簡
很多指標有內在聯系,找到少數幾個指標來刻畫這個問題
指標反應的內容可能共享,構建主成分
研究涉及p個指標,p維隨機向量
新的指標底系
均值miu
主成分基本原則和關系:(有四條)
1線性組合
2數目少
3主成分線性不相關
4主成分保留絕大多數信息
利用是spss軟件
問題實例:
城市指標對城市綜合實力進行評價,總共17個指標
主成分分析數據處理:標準化處理
和線性代數很有關
計算特征方程和特征根
回去好好看這部分內容。
統計的主成分到達80%就可以
線性組合之前需要去量綱,標準化過程
成分 component 乘上 標準化的比例
得到主成分需要解釋第幾個主成分是干嘛用的
存在有大小的問題,
第一個地區經濟發展
第二主成分:文化發展
第三個:粗糙一點,農村發展
從這個例子看主成分的應用
得到的各種主成分:信息集中,每個主成分刻畫的是哪一個方面的問題。
spss使用:有一個選項,主成分旋轉,在spss里面有這個,解決的是主成分不明確的問題。
還需要回歸的問題,判別分析等等
和其他搭配起來用。
總結一下:
這次講座主要講解了概率統計相關的模型和知識。
第一。統計方法現在在大數據時代是非常重要的。需要多花時間研究統計的理論。
第二。這次講座的知識點:假設檢驗,方差分析ANOVA(統計思想很重要,老師特別強調這個),回歸分析,判別分析(貝葉斯,fisher),聚類分析,主成分分析等等。其中老師著重講解的是方差分析,判別分析,主成分分析( 但是,老師建議在數模比賽中少用主成分分析)。
第三。借著這次數模的比賽好好學習,系統一下相關的統計知識,比賽是途徑,學習知識才是最主要的。但是另外一個老師講競賽的目的就是拿獎,就是證明我比你強。
第四。統計思想很重要。
最后:以上是筆者2019年參加上海市建模培訓的筆記與思考。沒有詳細地介紹各種方法,只是宏觀上、整體上記錄了一下概率統計相關的知識。希望各位讀者能夠按需求來閱讀,當然如果是想學習具體的算法,這篇博客可能不適合您。當然,如果本篇博客涉嫌侵權,請聯系刪除。
總結
以上是生活随笔為你收集整理的2019年上海市数学建模讲座笔记(2)概率统计模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: github入门必备概念
- 下一篇: 理财基金入门基础知识 注意基金的类型