當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python数据挖掘百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...

發(fā)布時(shí)間：2023/12/1 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 python数据挖掘百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

常用數(shù)據(jù)挖掘算法總結(jié)及Python實(shí)現(xiàn) 高清完整版PDF

第一部分?jǐn)?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)

第一章機(jī)器學(xué)習(xí)的統(tǒng)計(jì)基礎(chǔ)

1.1概率論

l概率論基本概念

樣本空間

我們將隨機(jī)實(shí)驗(yàn)E的一切可能基本結(jié)果組成的集合稱(chēng)為E的樣本空間,記為S。樣本空間的元素,即

E的每一個(gè)可能的結(jié)果,稱(chēng)為樣本點(diǎn)。樣本空間又叫基本事件空間。

例:拍拍貸用戶(hù)的學(xué)歷S=“研究生或以上’,本科,大專(zhuān)’,“高中,“中專(zhuān),初中及以下},A={研

究生或以上’,“本科,“大專(zhuān)”}

事件

事件A是樣本空間的了集,可分為四種類(lèi)型

空事件:樣木空間的空子集

原了事件:僅包含·個(gè)元素的樣本空間

混合事件:包含多個(gè)元素的樣木空間

樣本空間本身也是·個(gè)事件

集合

1.集合A的補(bǔ)集記做A

2.集合A和B的交集A⌒B

3.集合A和B的合集A∪B

4.如果A⌒B=,那么A和B互斥

5.如果442…An是采樣空間S的子集,如果A1∪A2∪…An=S,那么這種情

況稱(chēng)作完全窮盡

概率論定義

概率用來(lái)描述一件事的不確定性。假設(shè)A是投硬幣的一個(gè)結(jié)果(比如正面朝上),如果重復(fù)投硬幣很

多次,直到A出現(xiàn)的機(jī)會(huì)逼近個(gè)極限p。那么可以說(shuō)出現(xiàn)A的概率是p

對(duì)于事件A和B,聯(lián)合概率P(AB表示事件A和B同時(shí)發(fā)生的概率

number of favorable outcomes

P(A)

total number of possible outcomes

概率定律

事件的概率:PA)滿(mǎn)足:P(A)≥0;Ps)=1:對(duì)丁一連串的互斥事件:A)=∑/A)

條件概率

發(fā)生事件A的情況下,發(fā)生B的概率稱(chēng)作條件概率P(BA)

P(B A

P(B∩A

P(A)

·獨(dú)立性

事件發(fā)生和其它事件無(wú)關(guān)。

如果P(BAP(B,我們稱(chēng)B和A統(tǒng)計(jì)獨(dú)立,當(dāng)且僅當(dāng):P(4nB)=P(4)PB)

如果A和B統(tǒng)計(jì)獨(dú)立,那么B與A也統(tǒng)計(jì)獨(dú)立

總概率

P(A)=P(A∩B)+P(A∩B)=P(AB)P(B)+P(AB)P(B)

貝葉斯理論

P(BIA=P(A B)P(B)

P(A)

P(B):B的先驗(yàn)概率,非條件概率,或者邊際概率

P(AB):給定B條件下的A的條件概率,也被稱(chēng)作“似然”

P(A):A的邊際概率,也作為B的后驗(yàn)概率的歸·化常量

P(B|A):B的后驗(yàn)概率

2隨機(jī)變量,期望,方差

隨機(jī)變量ⅹ是隨機(jī)試驗(yàn)的數(shù)值型結(jié)果

相關(guān)概念:

觀(guān)測(cè)值:其中·個(gè)結(jié)果成為觀(guān)測(cè)值

數(shù)據(jù):多個(gè)觀(guān)測(cè)值集合為數(shù)據(jù)

總體:所有的結(jié)果稱(chēng)為總休

有兩種類(lèi)型的隨機(jī)變量

離交量:值數(shù)目可數(shù)

對(duì)于離散型隨機(jī)變量,我們關(guān)心每個(gè)特定數(shù)值出現(xiàn)的概率eg.客戶(hù)的婚姻情況

連綏交量:數(shù)值在一定范圍內(nèi)

對(duì)于連續(xù)性變量,某·個(gè)特定值出現(xiàn)的概率為0,我們只關(guān)心區(qū)間的概率

Eg各戶(hù)的投資金額

概率分布

隨機(jī)變量的分布就是它所有可能的輸出以及它們的概率集合

概率密度函數(shù)

隨機(jī)變量的概率密度函數(shù)描述該隨機(jī)變量在某個(gè)取值發(fā)生的可能性

離散變量:P(X-x)p(x)

P(<

連續(xù)變量:

累積分布函數(shù)

x處的累積分布函數(shù)是負(fù)無(wú)窮到ⅹ點(diǎn)的概率密度函數(shù)的累加和

期望

期望是指所有可能值的加權(quán)和。其權(quán)重對(duì)于離散值而言就是該值出現(xiàn)的概率,而對(duì)于連續(xù)值而言就是

共密度函數(shù)。

離散情況:

連續(xù)情況:

E(x)=∑xD(x)

E()=「xp(x)dkx

方差

用來(lái)描述該隨機(jī)變量值和平均值的郾散程度

離散情況

連續(xù)情況

陽(yáng)a()=∑(x-D()p(x)

a()=∫(x-B()p(

3常用概率分布

離散分布:伯努利分布(二項(xiàng)分布)

口概率度數(shù)

P(X=X)

均值

E(r)

方差

Varr)=p(1-p)

連續(xù)分布

正態(tài)分布是最常用的一種連續(xù)分布。密度函數(shù)的特點(diǎn)是:關(guān)于均值μ對(duì)稱(chēng),并在μ處取最大值,

在正(負(fù))無(wú)窮遠(yuǎn)處取值為0,圖像是一條位于x軸上方的鐘形曲線(xiàn)。期望值μ決定了分布的位置,

標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ=0,^2=1時(shí),稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布,記為N(O,1)

口概率密度函數(shù)

=0.d2=02

=0.2=1.0

P=-2.02=05

翅望

E(r)

口方差

d l

4統(tǒng)計(jì)量估計(jì)和中心極限定理

從一個(gè)數(shù)據(jù)集(樣本)估計(jì)它的分布情況

◇統(tǒng)計(jì)直方圖:直觀(guān)地顯示了數(shù)據(jù)的分布

描述性指標(biāo):

衡量據(jù)中趨勢(shì)

期望值的估計(jì):氵∑X

最大值/最小值:2500萬(wàn)用戶(hù)的最大最小借款金額

中值:按照借款金額排序,最中間的值

眾數(shù):出現(xiàn)次數(shù)最多的借款金額

衡量變化性

范圍:最大最小的借款金額之差

(x-x)

方差的佔(zhàn)計(jì):

兩個(gè)重要定理

大數(shù)定律

中心極限定理

100

All heads

大數(shù)定律(趨勢(shì)

中心極限定理(分布)

All Tails

Increasing number of coin tosses

大數(shù)定理

大數(shù)定理措述的是一組獨(dú)立冋分布隨杋變量的均值的極限。在這些隨機(jī)變量個(gè)數(shù)趨于無(wú)窮時(shí),其均值

依概率收斂于這些隨機(jī)變量的數(shù)學(xué)期望

指明樣本均值的收斂趨勢(shì)

◆中心極限定理

設(shè)隨機(jī)變量Ⅺ1,X2,n相互獨(dú)立,服從同·分布,且具有數(shù)學(xué)期望和方差

E(H)=p,la(X,)=a2>0

則隨機(jī)變量的均值=x1+漸進(jìn)地服從正態(tài)分布,并且期望和方差分別為

E(k1)=A,ar(X)=a2>0

指明樣本均值的分布與樣本量的關(guān)系

1.2假設(shè)檢驗(yàn)

L假設(shè)檢驗(yàn)概述

·作用:檢查觀(guān)察到的樣本究競(jìng)是否支持對(duì)總體的假設(shè),幫助進(jìn)行決策

概率論

假設(shè)檢驗(yàn)

數(shù)據(jù)估計(jì)

數(shù)據(jù)決策

假設(shè)檢驗(yàn)在數(shù)據(jù)分析中的應(yīng)用

◇理解分析建模的結(jié)果

需要讀懂相關(guān)性分析,歸回等建模的結(jié)果

coef std err

P>tI

[95.09 Conf. Int.

Const

-.3337

⊙.650

.513

.659

3.130

2.462

1.2591

.495

2.543

.126

0.872

3.390

.⊙456

⊙.081

-0.563

⊙.630

-0.394

.303

☆ AB Test

什么是假設(shè)檢驗(yàn)

假設(shè)檢驗(yàn)是數(shù)理統(tǒng)計(jì)學(xué)中根據(jù)一定假設(shè)條件由樣木推斷總體的一科方法

對(duì)總體做假設(shè)

出樣本做檢驗(yàn)

假設(shè)檢驗(yàn)的要素

令原假設(shè)( Null Hypothesis)

令備擇假設(shè)( Alternative Hypothesis):即與原假設(shè)相悖的陳述

◇檢驗(yàn)統(tǒng)計(jì)量:用采樣數(shù)據(jù)基于原假設(shè)計(jì)算岀的統(tǒng)計(jì)量,用來(lái)檢驗(yàn)原假設(shè)和備擇假設(shè)

◆拒絕域:在該區(qū)問(wèn),拒絕原假設(shè),而趨向于備擇假設(shè)

錯(cuò)誤類(lèi)型

類(lèi)型I:在給定原假設(shè)是正確的情況下拒絕原假設(shè)的概率( False positive)

a=P( reject Ho| Ho truc)拒真

類(lèi)型I:在給定備擇假設(shè)是正確的情況下接受原假設(shè)的概率( False negative)

β=P( accept H| Hi truc)取偽

·P- value

比觀(guān)測(cè)值更極端的情況出現(xiàn)的概率,衡量樣本數(shù)據(jù)相對(duì)于原假設(shè)的置信強(qiáng),也稱(chēng)作觀(guān)測(cè)的顯著性水平

P-val

P(Z≥

用于做拒絕決定:

如果p- value 3 a.不拒絕原假設(shè)

F-al

如果p-vlue

拒絕域

單邊檢測(cè)I

Critical Value(s)

H0:u≥3

H1:μ<3

單邊檢測(cè)Il

拒絕域

H0:≤3

H1:>3

雙邊檢測(cè)

Ho:μ=3

≠3

2如何選擇合適的檢驗(yàn)

兩組檢驗(yàn)類(lèi)型

參數(shù)檢測(cè):假定數(shù)據(jù)遵從某些特定的分布(例如:高斯分布),對(duì)總體參數(shù)進(jìn)行佔(zhàn)計(jì)或檢驗(yàn)

例如:z檢測(cè),t檢測(cè), ANOVA, chi-Square等

非參數(shù)檢測(cè):并沒(méi)有假定數(shù)據(jù)遵從某種分布。往往直接對(duì)分布的某種特性(如對(duì)稱(chēng)性,分位數(shù)人小)

做檢驗(yàn)。

例如 Kolmogorov- Smirnov檢測(cè), Wilcoxon檢測(cè),Mann- Whitney檢測(cè), Kruskal- Wallis檢測(cè)等

一個(gè)樣本和多個(gè)樣本

單個(gè)樣本檢驗(yàn):僅僅基于·個(gè)采樣樣本,通?；诰?、方差和分布的假設(shè)

例如,正態(tài)分布檢驗(yàn),z檢驗(yàn),t檢驗(yàn)

多個(gè)樣本檢驗(yàn):目標(biāo)是比較多個(gè)組別的均值方差是不是相等。

例如:∧NOMⅥA檢驗(yàn), Kruskal- Wallis檢驗(yàn)(hi- square檢驗(yàn)等等。

3假設(shè)檢驗(yàn)

正態(tài)性檢驗(yàn)

評(píng)估個(gè)數(shù)據(jù)集{x1,…,xn}服從正態(tài)分布的可

能性

Ho:ixl,., xn)-N(u, a2)

I1:{x1,,xn}服從仁意分布

2-0 plot(圖形檢驗(yàn)):

用圖形的方法來(lái)比較兩個(gè)概率分布:把他們的相應(yīng)百分位數(shù)畫(huà)在張圖里,圖中任意點(diǎn)(x2y),

x利Y坐標(biāo)分別是這兩個(gè)分布的百分位數(shù)。如果這兩個(gè)分布很相似, Q-Q plot上的點(diǎn)會(huì)近似地位于

對(duì)角線(xiàn)y=x附近

Kolmogorov- Smirnov(非參數(shù)檢驗(yàn))

以樣本數(shù)據(jù)的累計(jì)頻數(shù)分布與特定理論分布比較,拿

若兩者間的差距很小,則推論該樣本取自某特定分布。只8

對(duì)連續(xù)分布適用

Z檢驗(yàn)

原假設(shè)下的統(tǒng)計(jì)量近似為態(tài)分布。

-該正態(tài)分布方差已知,或可以從大樣本里佔(zhàn)計(jì)出來(lái)(近似Z檢驗(yàn))

H0:

NO,1)

H1:μ≠

Critical region

檢驗(yàn)統(tǒng)計(jì)量:

a/2

Acceptance

a/2

region

拒絕H:2>Z/2orZ

T檢驗(yàn)

-數(shù)據(jù)嚴(yán)格遵從正態(tài)分布

不要求方差已知,可以從數(shù)據(jù)中佔(zhàn)算

尤其適用于評(píng)估小樣本相對(duì)總體的差異

較Z檢驗(yàn)復(fù)雜

大樣本與Z檢驗(yàn)結(jié)果相似

Critical region

H1:μ≠μo

Ical region

a/2

檢驗(yàn)統(tǒng)計(jì)量:

7≈(X-)

x2,n-1

an n-I

拒絕Ho:T>1/2orT

檢驗(yàn)步驟

1)根據(jù)問(wèn)題,判定感興趣的參數(shù)

2)給定原假設(shè),F

3)給定備擇假設(shè)I

4)選擇·個(gè)置信水平α

5)選擇合適的假設(shè)檢驗(yàn)

6)推導(dǎo)出拒絕域

7)計(jì)算需要的統(tǒng)計(jì)變量

8)決定拒絕或接收原假設(shè)H

4.AB Test

假設(shè)檢驗(yàn)的一個(gè)重要應(yīng)用;

多個(gè)方案并行測(cè)試——大多數(shù)情況是兩個(gè)方案

每個(gè)方案從有一個(gè)變量不同—必須是單變量

以某種規(guī)則優(yōu)勝劣汰—規(guī)則不同可能結(jié)果完全不同。

13抽樣

l抽樣概述

2抽樣方法

3應(yīng)用案例

總結(jié)

以上是生活随笔為你收集整理的python数据挖掘百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： “鸣鹤时一闻”下一句是什么
下一篇： python求三个数中最小（大）的元素

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...

總結(jié)

python数据挖掘百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...