python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...
常用數(shù)據(jù)挖掘算法總結(jié)及Python實(shí)現(xiàn) 高清完整版PDF
第一部分?jǐn)?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)
第一章機(jī)器學(xué)習(xí)的統(tǒng)計(jì)基礎(chǔ)
1.1概率論
l概率論基本概念
樣本空間
我們將隨機(jī)實(shí)驗(yàn)E的一切可能基本結(jié)果組成的集合稱(chēng)為E的樣本空間,記為S。樣本空間的元素,即
E的每一個(gè)可能的結(jié)果,稱(chēng)為樣本點(diǎn)。樣本空間又叫基本事件空間。
例:拍拍貸用戶(hù)的學(xué)歷S=“研究生或以上’,本科,大專(zhuān)’,“高中,“中專(zhuān),初中及以下},A={研
究生或以上’,“本科,“大專(zhuān)”}
事件
事件A是樣本空間的了集,可分為四種類(lèi)型
空事件:樣木空間的空子集
原了事件:僅包含·個(gè)元素的樣本空間
混合事件:包含多個(gè)元素的樣木空間
樣本空間本身也是·個(gè)事件
集合
1.集合A的補(bǔ)集記做A
2.集合A和B的交集A⌒B
3.集合A和B的合集A∪B
4.如果A⌒B=,那么A和B互斥
5.如果442…An是采樣空間S的子集,如果A1∪A2∪…An=S,那么這種情
況稱(chēng)作完全窮盡
概率論定義
概率用來(lái)描述一件事的不確定性。假設(shè)A是投硬幣的一個(gè)結(jié)果(比如正面朝上),如果重復(fù)投硬幣很
多次,直到A出現(xiàn)的機(jī)會(huì)逼近個(gè)極限p。那么可以說(shuō)出現(xiàn)A的概率是p
對(duì)于事件A和B,聯(lián)合概率P(AB表示事件A和B同時(shí)發(fā)生的概率
number of favorable outcomes
P(A)
total number of possible outcomes
概率定律
事件的概率:PA)滿(mǎn)足:P(A)≥0;Ps)=1:對(duì)丁一連串的互斥事件:A)=∑/A)
條件概率
發(fā)生事件A的情況下,發(fā)生B的概率稱(chēng)作條件概率P(BA)
P(B A
P(B∩A
P(A)
·獨(dú)立性
事件發(fā)生和其它事件無(wú)關(guān)。
如果P(BAP(B,我們稱(chēng)B和A統(tǒng)計(jì)獨(dú)立,當(dāng)且僅當(dāng):P(4nB)=P(4)PB)
如果A和B統(tǒng)計(jì)獨(dú)立,那么B與A也統(tǒng)計(jì)獨(dú)立
總概率
P(A)=P(A∩B)+P(A∩B)=P(AB)P(B)+P(AB)P(B)
貝葉斯理論
P(BIA=P(A B)P(B)
P(A)
P(B):B的先驗(yàn)概率,非條件概率,或者邊際概率
P(AB):給定B條件下的A的條件概率,也被稱(chēng)作“似然”
P(A):A的邊際概率,也作為B的后驗(yàn)概率的歸·化常量
P(B|A):B的后驗(yàn)概率
2隨機(jī)變量,期望,方差
隨機(jī)變量ⅹ是隨機(jī)試驗(yàn)的數(shù)值型結(jié)果
相關(guān)概念:
觀(guān)測(cè)值:其中·個(gè)結(jié)果成為觀(guān)測(cè)值
數(shù)據(jù):多個(gè)觀(guān)測(cè)值集合為數(shù)據(jù)
總體:所有的結(jié)果稱(chēng)為總休
有兩種類(lèi)型的隨機(jī)變量
離交量:值數(shù)目可數(shù)
對(duì)于離散型隨機(jī)變量,我們關(guān)心每個(gè)特定數(shù)值出現(xiàn)的概率eg.客戶(hù)的婚姻情況
連綏交量:數(shù)值在一定范圍內(nèi)
對(duì)于連續(xù)性變量,某·個(gè)特定值出現(xiàn)的概率為0,我們只關(guān)心區(qū)間的概率
Eg各戶(hù)的投資金額
概率分布
隨機(jī)變量的分布就是它所有可能的輸出以及它們的概率集合
概率密度函數(shù)
隨機(jī)變量的概率密度函數(shù)描述該隨機(jī)變量在某個(gè)取值發(fā)生的可能性
離散變量:P(X-x)p(x)
P(<
連續(xù)變量:
累積分布函數(shù)
x處的累積分布函數(shù)是負(fù)無(wú)窮到ⅹ點(diǎn)的概率密度函數(shù)的累加和
期望
期望是指所有可能值的加權(quán)和。其權(quán)重對(duì)于離散值而言就是該值出現(xiàn)的概率,而對(duì)于連續(xù)值而言就是
共密度函數(shù)。
離散情況:
連續(xù)情況:
E(x)=∑xD(x)
E()=「xp(x)dkx
方差
用來(lái)描述該隨機(jī)變量值和平均值的郾散程度
離散情況
連續(xù)情況
陽(yáng)a()=∑(x-D()p(x)
a()=∫(x-B()p(
3常用概率分布
離散分布:伯努利分布(二項(xiàng)分布)
口概率度數(shù)
P(X=X)
均值
E(r)
方差
Varr)=p(1-p)
連續(xù)分布
正態(tài)分布是最常用的一種連續(xù)分布。密度函數(shù)的特點(diǎn)是:關(guān)于均值μ對(duì)稱(chēng),并在μ處取最大值,
在正(負(fù))無(wú)窮遠(yuǎn)處取值為0,圖像是一條位于x軸上方的鐘形曲線(xiàn)。期望值μ決定了分布的位置,
標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ=0,^2=1時(shí),稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布,記為N(O,1)
口概率密度函數(shù)
10
=0.d2=02
=0.2=1.0
P=-2.02=05
翅望
E(r)
口方差
d l
4統(tǒng)計(jì)量估計(jì)和中心極限定理
從一個(gè)數(shù)據(jù)集(樣本)估計(jì)它的分布情況
◇統(tǒng)計(jì)直方圖:直觀(guān)地顯示了數(shù)據(jù)的分布
描述性指標(biāo):
衡量據(jù)中趨勢(shì)
期望值的估計(jì):氵∑X
最大值/最小值:2500萬(wàn)用戶(hù)的最大最小借款金額
中值:按照借款金額排序,最中間的值
眾數(shù):出現(xiàn)次數(shù)最多的借款金額
衡量變化性
范圍:最大最小的借款金額之差
(x-x)
方差的佔(zhàn)計(jì):
兩個(gè)重要定理
大數(shù)定律
中心極限定理
100
90
All heads
80
70
大數(shù)定律(趨勢(shì)
60
50
40
30
中心極限定理(分布)
10
All Tails
Increasing number of coin tosses
大數(shù)定理
大數(shù)定理措述的是一組獨(dú)立冋分布隨杋變量的均值的極限。在這些隨機(jī)變量個(gè)數(shù)趨于無(wú)窮時(shí),其均值
依概率收斂于這些隨機(jī)變量的數(shù)學(xué)期望
指明樣本均值的收斂趨勢(shì)
◆中心極限定理
設(shè)隨機(jī)變量Ⅺ1,X2,n相互獨(dú)立,服從同·分布,且具有數(shù)學(xué)期望和方差
E(H)=p,la(X,)=a2>0
則隨機(jī)變量的均值=x1+漸進(jìn)地服從正態(tài)分布,并且期望和方差分別為
E(k1)=A,ar(X)=a2>0
指明樣本均值的分布與樣本量的關(guān)系
1.2假設(shè)檢驗(yàn)
L假設(shè)檢驗(yàn)概述
·作用:檢查觀(guān)察到的樣本究競(jìng)是否支持對(duì)總體的假設(shè),幫助進(jìn)行決策
概率論
假設(shè)檢驗(yàn)
數(shù)據(jù)估計(jì)
數(shù)據(jù)決策
假設(shè)檢驗(yàn)在數(shù)據(jù)分析中的應(yīng)用
◇理解分析建模的結(jié)果
需要讀懂相關(guān)性分析,歸回等建模的結(jié)果
coef std err
t
P>tI
[95.09 Conf. Int.
Const
-.3337
⊙.650
.513
.659
3.130
2.462
1.2591
.495
2.543
.126
0.872
3.390
.⊙456
⊙.081
-0.563
⊙.630
-0.394
.303
☆ AB Test
什么是假設(shè)檢驗(yàn)
假設(shè)檢驗(yàn)是數(shù)理統(tǒng)計(jì)學(xué)中根據(jù)一定假設(shè)條件由樣木推斷總體的一科方法
對(duì)總體做假設(shè)
出樣本做檢驗(yàn)
假設(shè)檢驗(yàn)的要素
令原假設(shè)( Null Hypothesis)
令備擇假設(shè)( Alternative Hypothesis):即與原假設(shè)相悖的陳述
◇檢驗(yàn)統(tǒng)計(jì)量:用采樣數(shù)據(jù)基于原假設(shè)計(jì)算岀的統(tǒng)計(jì)量,用來(lái)檢驗(yàn)原假設(shè)和備擇假設(shè)
◆拒絕域:在該區(qū)問(wèn),拒絕原假設(shè),而趨向于備擇假設(shè)
錯(cuò)誤類(lèi)型
類(lèi)型I:在給定原假設(shè)是正確的情況下拒絕原假設(shè)的概率( False positive)
a=P( reject Ho| Ho truc)拒真
類(lèi)型I:在給定備擇假設(shè)是正確的情況下接受原假設(shè)的概率( False negative)
β=P( accept H| Hi truc)取偽
·P- value
比觀(guān)測(cè)值更極端的情況出現(xiàn)的概率,衡量樣本數(shù)據(jù)相對(duì)于原假設(shè)的置信強(qiáng),也稱(chēng)作觀(guān)測(cè)的顯著性水平
P-val
P(Z≥
用于做拒絕決定:
如果p- value 3 a.不拒絕原假設(shè)
F-al
如果p-vlue
拒絕域
單邊檢測(cè)I
Critical Value(s)
H0:u≥3
H1:μ<3
單邊檢測(cè)Il
拒絕域
H0:≤3
H1:>3
雙邊檢測(cè)
Ho:μ=3
≠3
2如何選擇合適的檢驗(yàn)
兩組檢驗(yàn)類(lèi)型
參數(shù)檢測(cè):假定數(shù)據(jù)遵從某些特定的分布(例如:高斯分布),對(duì)總體參數(shù)進(jìn)行佔(zhàn)計(jì)或檢驗(yàn)
例如:z檢測(cè),t檢測(cè), ANOVA, chi-Square等
非參數(shù)檢測(cè):并沒(méi)有假定數(shù)據(jù)遵從某種分布。往往直接對(duì)分布的某種特性(如對(duì)稱(chēng)性,分位數(shù)人小)
做檢驗(yàn)。
例如 Kolmogorov- Smirnov檢測(cè), Wilcoxon檢測(cè),Mann- Whitney檢測(cè), Kruskal- Wallis檢測(cè)等
一個(gè)樣本和多個(gè)樣本
單個(gè)樣本檢驗(yàn):僅僅基于·個(gè)采樣樣本,通?;诰?、方差和分布的假設(shè)
例如,正態(tài)分布檢驗(yàn),z檢驗(yàn),t檢驗(yàn)
多個(gè)樣本檢驗(yàn):目標(biāo)是比較多個(gè)組別的均值方差是不是相等。
例如:∧NOMⅥA檢驗(yàn), Kruskal- Wallis檢驗(yàn)(hi- square檢驗(yàn)等等。
3假設(shè)檢驗(yàn)
正態(tài)性檢驗(yàn)
評(píng)估個(gè)數(shù)據(jù)集{x1,…,xn}服從正態(tài)分布的可
能性
Ho:ixl,., xn)-N(u, a2)
I1:{x1,,xn}服從仁意分布
2-0 plot(圖形檢驗(yàn)):
用圖形的方法來(lái)比較兩個(gè)概率分布:把他們的相應(yīng)百分位數(shù)畫(huà)在張圖里,圖中任意點(diǎn)(x2y),
x利Y坐標(biāo)分別是這兩個(gè)分布的百分位數(shù)。如果這兩個(gè)分布很相似, Q-Q plot上的點(diǎn)會(huì)近似地位于
對(duì)角線(xiàn)y=x附近
Kolmogorov- Smirnov(非參數(shù)檢驗(yàn))
以樣本數(shù)據(jù)的累計(jì)頻數(shù)分布與特定理論分布比較,拿
若兩者間的差距很小,則推論該樣本取自某特定分布。只8
對(duì)連續(xù)分布適用
Z檢驗(yàn)
原假設(shè)下的統(tǒng)計(jì)量近似為態(tài)分布。
-該正態(tài)分布方差已知,或可以從大樣本里佔(zhàn)計(jì)出來(lái)(近似Z檢驗(yàn))
H0:
NO,1)
H1:μ≠
Critical region
Critical region
檢驗(yàn)統(tǒng)計(jì)量:
a/2
Acceptance
a/2
region
(r
0
拒絕H:2>Z/2orZ
T檢驗(yàn)
-數(shù)據(jù)嚴(yán)格遵從正態(tài)分布
不要求方差已知,可以從數(shù)據(jù)中佔(zhàn)算
尤其適用于評(píng)估小樣本相對(duì)總體的差異
較Z檢驗(yàn)復(fù)雜
大樣本與Z檢驗(yàn)結(jié)果相似
Critical region
H1:μ≠μo
Ical region
a/2
檢驗(yàn)統(tǒng)計(jì)量:
7≈(X-)
x2,n-1
an n-I
拒絕Ho:T>1/2orT
檢驗(yàn)步驟
1)根據(jù)問(wèn)題,判定感興趣的參數(shù)
2)給定原假設(shè),F
3)給定備擇假設(shè)I
4)選擇·個(gè)置信水平α
5)選擇合適的假設(shè)檢驗(yàn)
6)推導(dǎo)出拒絕域
7)計(jì)算需要的統(tǒng)計(jì)變量
8)決定拒絕或接收原假設(shè)H
4.AB Test
假設(shè)檢驗(yàn)的一個(gè)重要應(yīng)用;
多個(gè)方案并行測(cè)試——大多數(shù)情況是兩個(gè)方案
每個(gè)方案從有一個(gè)變量不同—必須是單變量
以某種規(guī)則優(yōu)勝劣汰—規(guī)則不同可能結(jié)果完全不同。
13抽樣
l抽樣概述
2抽樣方法
3應(yīng)用案例
總結(jié)
以上是生活随笔為你收集整理的python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: “鸣鹤时一闻”下一句是什么
- 下一篇: python求三个数中最小(大)的元素