當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

探索性数据分析

發(fā)布時間：2023/12/14 编程问答 60 豆豆

生活随笔收集整理的這篇文章主要介紹了探索性数据分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。作為分享主義者(sharism)，本人所有互聯(lián)網(wǎng)發(fā)布的圖文均遵從CC版權(quán)，轉(zhuǎn)載請保留作者信息并注明作者Jie Qiao專欄:http://blog.csdn.net/a358463121。商業(yè)使用請聯(lián)系作者。 https://blog.csdn.net/a358463121/article/details/55003356

探索性數(shù)據(jù)分析

介紹

當(dāng)有人扔給你一份數(shù)據(jù)時，你對這份數(shù)據(jù)完全陌生，又沒有足夠的業(yè)務(wù)背景，會不會感覺無從下手。如果你什么都不管，直接把數(shù)據(jù)喂給各種模型，卻發(fā)現(xiàn)效果不好，因為你沒有好的特征，那么你可能需要的是數(shù)據(jù)探索。
首先什么是探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)？
實際上，這是一系列的方法，它的目的就是讓你最大化對數(shù)據(jù)的直覺，為了讓你對數(shù)據(jù)有感覺，你不僅需要知道數(shù)據(jù)里有什么，你還需要知道數(shù)據(jù)里沒有什么，而完成這件事情的方法只有一個，那就是結(jié)合各種統(tǒng)計學(xué)的圖形把數(shù)據(jù)以各種形式展現(xiàn)在我們面前。它可以完成這些事情：

讓你最大程度得到數(shù)據(jù)的直覺

發(fā)掘潛在的結(jié)構(gòu)

提取重要的變量

刪除異常值

檢驗潛在的假設(shè)

建立初步的模型

決定最優(yōu)因子的設(shè)置

舉一個例子：

X1Y1X2Y2X3Y3X4Y4

10	8.04	10	9.14	10	7.46	8	6.58
8	6.95	8	8.14	8	6.77	8	5.76
13	7.58	13	8.74	13	12.74	8	7.71
9	8.81	9	8.77	9	7.11	8	8.84
11	8.33	11	9.26	11	7.81	8	8.47
14	9.96	14	8.1	14	8.84	8	7.04
6	7.24	6	6.13	6	6.08	8	5.25
4	4.26	4	3.1	4	5.39	19	12.5
12	10.84	12	9.13	12	8.15	8	5.56
7	4.82	7	7.26	7	6.42	8	7.91
5	5.68	5	4.74	5	5.73	8	6.89

有這么一些數(shù)據(jù)，如果你通過一些描述性的指標(biāo)來表示這些數(shù)據(jù)，你或許可以得到這些：

對于X1 Y1這兩列數(shù)據(jù)

N = 11
Mean of X = 9.0
Mean of Y = 7.5
Intercept = 3
Slope = 0.5
Standard deviation of residuals = 1.126
Correlation = 81.7%

對于X2 Y2這兩列數(shù)據(jù)

N = 11
Mean of X = 9.0
Mean of Y = 7.5
Intercept = 3
Slope = 0.5
Standard deviation of residuals = 1.126
Correlation = 81.7%

對于X3 Y3這兩列數(shù)據(jù)

N = 11
Mean of X = 9.0
Mean of Y = 7.5
Intercept = 3
Slope = 0.5
Standard deviation of residuals = 1.126
Correlation = 81.7%

X4 Y4跟他們都是一模一樣的，但是如果你把他們畫出來你會發(fā)現(xiàn)他們完全不一樣。

我們從圖中可以非常容易看出

數(shù)據(jù)集1 是明顯的線性關(guān)系

數(shù)據(jù)集2 是明顯的二次關(guān)系

數(shù)據(jù)集3 明顯存在異常值

數(shù)據(jù)集4 顯然是糟糕的實驗設(shè)計造成的。有一個點(diǎn)飛去了遠(yuǎn)方

EDA技術(shù)

在這一節(jié)將要介紹當(dāng)你拿到一些數(shù)據(jù)時，去探索它所用到的一些技術(shù)，以及分析的方法。這些技術(shù)可以劃分為兩類，一是基于圖像的，二是基于定量方法的。

探索性數(shù)據(jù)分析常用的一些常見問題：

數(shù)據(jù)的典型值是多少(均值，中位數(shù)等)？

典型值的不確定性是什么？

一組數(shù)據(jù)的良好分布擬合是什么？

數(shù)據(jù)的分位數(shù)是多少？

一個工程上的修改是否有作用？

一個因子是否有影響？

最重要的因素是什么？

來自不同實驗室的測量結(jié)果是否相等？

將響應(yīng)變量與一組因子變量相關(guān)聯(lián)的最佳函數(shù)是什么？

什么是最好的因子設(shè)置？

我們可以將時間相關(guān)數(shù)據(jù)中的信號與噪聲分離嗎？

我們可以從多變量數(shù)據(jù)中提取任何結(jié)構(gòu)嗎？

數(shù)據(jù)是否有離群值？

第一步，你需要根據(jù)你的任務(wù)來決定EDA需要回答以上哪些問題，哪些問題對你來說是最重要的。當(dāng)你決定好需要回答哪些問題時，就可以選擇合適的EDA技術(shù)去回答你的問題。

接來下我會逐一介紹各個數(shù)據(jù)探索的技術(shù)

下面部分用到的數(shù)據(jù)在這里：https://raw.githubusercontent.com/358463121/markdown_notebook/master/eda/data.txt，直接復(fù)制到R中運(yùn)行即可

1.自相關(guān)圖

這是一種常見的檢驗數(shù)據(jù)集隨機(jī)性的技術(shù)。它通過計算不同時滯下的自相關(guān)系數(shù)來刻畫。

圖中的Y軸是自相關(guān)系數(shù)：

取值在-1到1之間

橫坐標(biāo)是：時滯(time lag) h(h=1,2,3,…)

從形式上看自協(xié)方差則是序列的樣本方差。自相關(guān)圖刻畫了不同時滯下時間序列的自相關(guān)性。所以自相關(guān)圖還常常用來對AR模型進(jìn)行定階。

比如說有這么一個時間序列AR(2)：

那么它的1階，2階的自相關(guān)系數(shù)應(yīng)該很大,然后階數(shù)越大，自相關(guān)系數(shù)逐漸減少。

自相關(guān)圖可以回答以下幾個問題：

數(shù)據(jù)是否是隨機(jī)的？

一些觀測值會不會與它附近的觀測值相關(guān)？

該時間序列是不是白噪聲？

是不是正弦波？

是不是自回歸的？

適合它的時間序列模型是什么？

模型是不是

這種形式？

我們對比幾張自相關(guān)圖看看：

隨機(jī)序列:

弱自相關(guān)(系數(shù)的取值很小)：

強(qiáng)自相關(guān)：

正弦波：

2.雙柱狀圖(Bihistogram)

這是一種與兩樣本t檢驗相對應(yīng)的技術(shù)，當(dāng)你還在糾結(jié)于均值，尺度，偏度，異常值，峭度等等數(shù)字背后直觀感覺時，其實簡單的把數(shù)據(jù)的直方圖就很明顯了。

它除了比較兩個變量的分布之外，還可以有另外的用法。比如說，我們可以畫出不同性別，男女這兩個水平下的身高的分布，從而比較性別是否會對身高有顯著的影響。

可以用R語言來畫該圖

library(Hmisc) histbackback(split(y,batch),ylab="Strength of Ceramic",brks=seq(300,900,by=25))

3.塊圖(Block Plot)

這是一個對應(yīng)于方差分析(ANOVA)的EDA技術(shù)。它可以給予我們方差分析所沒有的直觀感受。它可以直觀地判斷一個因子是否有用。

縱坐標(biāo)：變量Y的值（平均失敗每小時）
橫坐標(biāo)：所有次要因子的水平的組合（在這里是plant speed shift這3個因子共有種組合）
圖中的1,2表示主要因子(weld method)取1和取2時對Y的不同影響。

從圖中我們可以看到，顯然不管次要因子的取值如何，weld method取2時，大部分時間都比取1更有效。從而證明了，我們這個weld method因子是一個非常泛化和穩(wěn)定的特征。我們也可以從圖中看到次要因子的哪一個組合是最有效的。

畫圖代碼：

library(dplyr) avg<-df%>%group_by(lab,batch)%>%summarise(x=mean(y))## Generate the block plot. boxplot(avg$x ~ avg$lab, medlty="blank",ylab="Ceramic Strength",xlab="Laboratory",main="Batch Means for Each Laboratory") ## Add labels for the batch means. text(avg$lab[avg$batch==1], avg$x[avg$batch==1],labels=avg$batch[avg$batch==1], pos=1) text(avg$lab[avg$batch==2], avg$x[avg$batch==2],labels=avg$batch[avg$batch==2], pos=3)

4.Bootstrap Plot

縱坐標(biāo)：有放回抽樣的樣本計算出來的統(tǒng)計量
橫坐標(biāo)：抽樣的次數(shù)

Bootstrap Plot就是簡單地把每次抽樣，從而計算得到的統(tǒng)計量畫出來

這圖是500次隨機(jī)抽樣，計算均值的Bootstrap圖，可以看到均值集中在650左右,同時也可以計算出均值所在的90%置信區(qū)間是[644.7045,655.5157]

要注意的是bootstrap 并不適用于所有的分布和統(tǒng)計量。例如，由于均勻分布的形狀，bootstrap 不適于估計嚴(yán)重依賴于尾部的統(tǒng)計的分布，例如取值范圍。

library(boot) ## Bootstrap and CI for mean. d is a vector of integer indexes set.seed(0) samplemean <- function(x, d) {return(mean(x[d])) } b1 = boot(y, samplemean, R=500) z1 = boot.ci(b1, conf=0.9, type="basic") meanci = paste("90% CI: ", "(", round(z1$basic[4],4), ", ", round(z1$basic[5],4), ")", sep="" ) ## Generate bootstrap plot. par(mfrow=c(1,2)) plot(b1$t,type="l",ylab="Mean",main=meanci) hist(b1$t,main="Bootstrap Mean",xlab="Mean")

5.Box-Cox Linearity Plot

box-cox變換：

它可以用來消除偏斜和其他分布特征，使得能夠?qū)?shù)據(jù)向正態(tài)分布靠攏。這樣做的目的是因為大部分模型或檢驗都需要對變量的分布做正態(tài)性假設(shè)，如果變量不滿足正態(tài)分布，那么就有可能導(dǎo)致模型不準(zhǔn)確，那么做一個box-cox變換或許是一個不錯的選擇。

這一個圖可以回答這兩個問題

box-cox變換是否對擬合效果有提升?

box-cox變換最合適的參數(shù)是什么?

當(dāng)然，對于boxcox的參數(shù)使得數(shù)據(jù)變換后的正態(tài)性最強(qiáng)來進(jìn)行選擇。

以下是通過對Y回歸，然后計算不同的取值越好（這是因為線性模型是假設(shè)噪聲服從正態(tài)分布的）

library(MASS) boxcox(Volume ~ log(Height) + log(Girth), data = trees,lambda = seq(-0.25, 0.25, length = 10))

6.箱線圖

這個大家都很熟，我也不多說。簡單地說，箱線圖刻畫了一個變量的1/4分位數(shù) 3/4分位數(shù)，中位數(shù)，還有異常值。

箱線圖同樣可以用來判斷一個因子的影響是否顯著，通過將不同水平的箱線圖畫出來，看看是否會對目標(biāo)變量Y的分布有影響。

7.Complex Demodulation Amplitude Plot

一個常用的時間序列分析模型就是一個正弦模型：

無關(guān)的。

而這個圖，則是用來確定這個振幅是不是一個常用的。即模型可以寫成這樣：

我們通過把不同時間下的振幅計算出來，就可以得到我們的Complex Demodulation Amplitude Plot：

振幅穩(wěn)定在390附近
振幅有一個啟動的過程
在左右振幅有一個較大的波動，可以考慮在那附近出現(xiàn)了異常，需要仔細(xì)排查。

還有一個畫移相的圖

8.等高線圖(Contour Plot)

當(dāng)你有3個變量時，你可以使用等高線圖來觀測x，y的取值對z變量的影響。當(dāng)然，你可以選擇畫三維圖。

#等高線圖一個簡單的例子 x <- -6:16 contour(outer(x, x), method = "edge", vfont = c("sans serif", "plain"))

DOE Contour Plot

這是一種專門用于全因子設(shè)計和部分因子設(shè)計的等高線圖。通常這些設(shè)計用”-1”或”-“表示低水平，用”+1”或”+”表示高水平。也有可能出現(xiàn)中水平，則用”0”表示。

看不懂下一個。。

9.DOE Scatter Plot

DOE散點(diǎn)圖是用于分析試驗數(shù)據(jù)的方法。它畫出了每個因子對應(yīng)的每個水平對因變量Y的影響。如果每個水平有重復(fù)值，那么就可以用這個方法，將不同水平對應(yīng)的Y取值畫到圖上。同樣，你也可以畫出不同水平下的均值或標(biāo)準(zhǔn)差，然后用直線連接，那么這就是 DOE mean plot和DOE standard deviation plot。

在這個圖中，有7個因子，里面中間的水平線表示所有數(shù)據(jù)的均值。從這個圖里面我們可以看到：

這里沒有異常值

因子2，4顯然不同水平間有顯著的差異

因子1則顯示出了比例誤差（scale differences）

同理，如果我們畫出每個水平對應(yīng)Y的均值就可以得到DOE Mean Plot

從這個圖可以看出因子的重要程度為：4>2>1>7>6>3,5

它可以用來判斷因子的重要程度，以及重要程度的排名。

畫出不同因子水平的標(biāo)準(zhǔn)差就可以得到DOE Standard Deviation Plot

因子1的標(biāo)準(zhǔn)差有著很大的差異

因子4的標(biāo)準(zhǔn)差都比較小

對于所有的因子，它的第一個水平的標(biāo)準(zhǔn)差總是比第二個水平低

10.Lag plot

lag plot可以用來檢查數(shù)據(jù)或時間序列是不是隨機(jī)序列。如果是隨機(jī)的，那么在lag plot中是看不出任何結(jié)構(gòu)的。

這個圖就是簡單地以作為縱軸。

從上面這個圖可以看出有著顯著的線性關(guān)系。這一個數(shù)據(jù)顯然是非負(fù)的，而且也可以看出這個時間序列或許是滿足自回歸模型的。

當(dāng)然，同樣可以使用滯后2期，3期來畫這個圖，不過一般都設(shè)lag=1.

我們多看幾個例子：

隨機(jī)數(shù)據(jù)：

適中程度的自回歸:

強(qiáng)烈的自回歸：

數(shù)據(jù)服從正弦模型以及存在離群值：

data=cumsum(runif(100,-5,5)) lag.plot(data)

11.線性相關(guān)圖（Linear Correlation Plot）

線性相關(guān)圖常用于評估各組之間對目標(biāo)變量Y的相關(guān)性是否一致。除了考慮相關(guān)性是否一致，你也可以考慮斜率(Linear Slope Plot)或截距(Linear Intercept Plot)與目標(biāo)變量Y是否一致。

舉個例子，你可以將一個一年的數(shù)據(jù)分為12個月，你希望知道每個月的客流量對你商品銷量的影響是否一樣。那你就可以畫線性相關(guān)圖來檢驗?zāi)愕募僭O(shè)。

當(dāng)然，有時候你的數(shù)據(jù)可能沒有分組，那么如果你有的數(shù)據(jù)來自不同的數(shù)據(jù)源，也可以把數(shù)據(jù)源作為分組。

從這個圖可以看到每個組的相關(guān)性都是差不多的。

如果我們把相關(guān)系數(shù)變成截距可以得到：

可以看到截距是有所差異的，不過這些差異其實很小。

再看看斜率的：

所有的分組的斜率都在0.174的附近，偏差0.002，差異也很小，這可能意味著我們只需用其實一個分組進(jìn)行擬合就足夠了。

你還可以畫出不同分組擬合后殘差的標(biāo)準(zhǔn)差：

其中實線部分是使用全部數(shù)據(jù)的誤差的標(biāo)準(zhǔn)差，這個值一般都會比分組數(shù)據(jù)的大。

12.均值圖(Mean Plot)

均值圖一般用來比較數(shù)據(jù)中不同分組之間均值的差異。這個分組是由分析師決定的。比如說，我們可以用一個月作為一組，這樣一年就可以分成12組。所以這個均值圖就是將每個分組的均值畫出來就可以了。當(dāng)然，你也可以將均值替換成中位數(shù)，眾數(shù)，切尾平均數(shù)，縮尾均值等統(tǒng)計量。

這個圖可以回答以下問題：

分組間的均值是否有變動？

分組間的均值差異多大？

均值的變動是否有一些獨(dú)有的模式在里面？

13.Q-Q圖(Quantile-Quantile Plot )與P-P圖(probability–probability plot)

P-P圖是數(shù)據(jù)的經(jīng)驗累積分布函數(shù)與特定的累積分布函數(shù)F（·）間的比較。而Q-Q圖則是數(shù)據(jù)分位數(shù)與某個理論分布分位數(shù)間的比較。 P-P圖和Q-Q圖的構(gòu)造和解釋主要有三個不同點(diǎn)：

Q-Q圖的構(gòu)造不需要指定F（·）的位置或尺度參數(shù)。理論分位數(shù)可以從一個指定的理論分布中直接計算。若點(diǎn)在圖上的排列呈線性，而且位置和尺度參數(shù)可以直觀地對應(yīng)于該直線的截距和斜率。相比之下，P-P圖的構(gòu)造需要F（·）的位置和尺度參數(shù)來評估有序數(shù)據(jù)的cdf。
Q-Q圖上點(diǎn)是否呈線性趨勢并不受分布的位置或尺度參數(shù)變化的影響。而在P-P圖上，位置或尺度的變化不一定能保持線性。
在Q-Q圖上，表示特定理論分布的參考線取決于該分布的位置和尺度參數(shù)，其截距和斜率對應(yīng)于位置和尺度參數(shù)。在P-P圖上，任何分布的參考線總是對角線y = x。

因此，如果您的目標(biāo)是將數(shù)據(jù)分布與僅在位置和規(guī)模上變化的分布族進(jìn)行比較，特別是如果要從圖中估計位置和比例參數(shù)，則應(yīng)使用Q-Q圖。

P-P圖的優(yōu)點(diǎn)是它們在高概率密度的區(qū)域是可區(qū)分的，因為在這些區(qū)域中，經(jīng)驗和理論累積分布比在低概率密度區(qū)域變化得快的多。例如，如果將數(shù)據(jù)分布與特定的正態(tài)分布進(jìn)行比較，兩個分布間的差異在P-P圖上要比在Q-Q圖更明顯。

這是一個QQ圖，從這個圖里面可以看出：

這兩個batch的數(shù)據(jù)（橫縱坐標(biāo)）顯然不是來自同一個分布的
batch1的數(shù)據(jù)明細(xì)的大于batch2的數(shù)據(jù)
數(shù)據(jù)在525到625間差異較大，而再之后則差異沒那么大。

QQ圖的組成：

橫坐標(biāo)：數(shù)據(jù)集1的分位數(shù)
縱坐標(biāo)：數(shù)據(jù)集2的分位數(shù)

QQ圖可以告訴我們：

兩個數(shù)據(jù)是否來自同一分布，你也可以檢驗數(shù)據(jù)是否來自某個特定分布，比如說正態(tài)分布，這時你只需要計算正態(tài)分布的理論分位數(shù)就可以了，下面同理。
兩個數(shù)據(jù)是否有相同的位置與尺度
兩個數(shù)據(jù)是否有相似的分布形狀
兩個數(shù)據(jù)的分布的尾部是否有相似的地方

14.散點(diǎn)圖

這或許是最為常用的方法之一了，我估計大家都很熟。。我就簡單過一下

這是隨機(jī)數(shù)據(jù)的散點(diǎn)圖形狀：

線性相關(guān)的數(shù)據(jù)：

二次曲線的數(shù)據(jù)：

指數(shù)關(guān)系的數(shù)據(jù)：

正弦數(shù)據(jù)：

與X獨(dú)立的同方差擾動：

與X不獨(dú)立的異方差性（隨著X增大噪聲的方差也增大）：

關(guān)于異方差，這個可以通過加權(quán)最小二乘法，boxcox變換，對數(shù)變換等方法來解決。

15.Spectral Plot

通過傅里葉變換，將數(shù)據(jù)從時域變換到頻域

看上面這幅動圖，里面最后藍(lán)色的線就是我們的Spectral Plot

如果模型是這個形式的：

從這幅圖可以看出其主要頻率是0.3

這個圖可以回答一下問題：

有多少個周期成分在里面？

是否有一個重要的頻率？

這是重要的，影響最大的頻率是多少？

關(guān)于傅里葉變換已經(jīng)有很多出色的資料，我不多說了，比如說這個，傅里葉分析之掐死教程（完整版）

16.Weibull Plot

威布爾分布（Weibull distribution），又稱韋伯分布或韋布爾分布，是可靠性分析和壽命檢驗的理論基礎(chǔ)。它在可靠性工程中被廣泛應(yīng)用，尤其適用于機(jī)電類產(chǎn)品的磨損累計失效的分布形式。由于它可以利用概率值很容易地推斷出它的分布參數(shù)，被廣泛應(yīng)用于各種壽命試驗的數(shù)據(jù)處理。

它的條件概率密度如下：

其中是尺度(scale)參數(shù)。

對于這個分布的解釋我們可以這樣理解，

失敗概率隨著時間增加而增加。這一情況通常會出現(xiàn)在壽命等問題上。

若數(shù)據(jù)服從Weibull分布，那么數(shù)據(jù)就會有如此的關(guān)系：

我們把ln(x)作為x軸，作為Y軸就可以得到以下這個圖：

該圖顯示在該63.2％點(diǎn)處的水平線和水平線與最小二乘擬合線相交的垂直線。該垂直線示出尺度參數(shù)的值。

這個Weibull圖顯示：

威布爾分布的假設(shè)是合理的;

尺度參數(shù)估計為33.32;

形狀參數(shù)估計為5.28;

沒有異常值。

注意，x軸（“0”，“1”和“2”）上的值是指數(shù)。這些實際上表示值100 = 1,101 = 10和102 = 100。(100表示10的0次方)

威布爾圖由以下形成：

y軸：威布爾累積概率表示為百分比
x軸：有序故障次數(shù)（在LOG10刻度中）

垂直刻度是ln（-ln（1-p）），其中p =（i-0.3）/（n + 0.4），i是觀察的秩。選擇該尺度以便線性化Weibull數(shù)據(jù)的所得圖。

17.Youden Plot

Youden圖是用于分析interlab數(shù)據(jù)的圖形技術(shù)，適用于每個實驗在同一產(chǎn)品上進(jìn)行兩次評估或在兩個不同產(chǎn)品上運(yùn)行一次評估時。

Youden圖是用于比較實驗室內(nèi)變異性和實驗室間變異性的簡單但有效的方法。

此圖顯示：

并不是所有的實驗室都是等效的。

實驗室4偏差低。

實驗室3具有實驗室內(nèi)變異性問題。

實驗室5有一個異常值。

Youden圖形由以下形成：

橫坐標(biāo)：響應(yīng)變量1 (i.e., run 1 or product 1 response value)

縱坐標(biāo)：響應(yīng)變量2(i.e., run 2 or product 2 response value)

此外，圖符號是lab id（通常是從1到k的整數(shù)，其中k是實驗室的數(shù)量），有時會繪制45度的基準(zhǔn)線，理想情況下，產(chǎn)生兩次相同產(chǎn)物的實驗室應(yīng)該按理產(chǎn)生相似的結(jié)果。離開此參考線表示與實驗室不一致。如果兩個不同的產(chǎn)品在測試，45度線則可能不合適。然而，如果實驗室是一致的，點(diǎn)應(yīng)該靠近一些擬合的直線。

Youden圖本質(zhì)上是一個散點(diǎn)圖，因此在支持散點(diǎn)圖的任何通用統(tǒng)計程序中為Youden圖寫一個宏應(yīng)該是可行的。

18.t-sne

我覺得在這里有必要提一下t-sne這個技術(shù)。想象一下你有一個包含數(shù)百個特征（變量）的數(shù)據(jù)集，對數(shù)據(jù)所屬的域幾乎沒有什么了解。您需要識別數(shù)據(jù)中的隱藏模式，探索和分析數(shù)據(jù)集。

這是否讓你不舒服？它讓我的手汗水，當(dāng)我第一次遇到這種情況。你想知道如何探索一個多維數(shù)據(jù)集嗎？這是許多數(shù)據(jù)科學(xué)家經(jīng)常問的問題之一。而t-sne可以做到這一點(diǎn)。目前有很多t-sne介紹的文章，比如：從SNE到t-SNE再到LargeVis

和Comprehensive Guide on t-SNE algorithm with implementation in R & Python。

簡單地說它是一種非線性降維的算法。通過將數(shù)據(jù)降到2維或3維，然后就可以用一個散點(diǎn)圖或3d圖來表示我們這些高維的數(shù)據(jù)，而且它的效果也非常的好。另外降維后的結(jié)果也可以作為一個額外特征加入到其他任務(wù)中。

這個算法的核心思想就是，高維數(shù)據(jù)下數(shù)據(jù)間的距離，與映射到低維后數(shù)據(jù)間的距離應(yīng)該是非常相似的。通過優(yōu)化這個目標(biāo)就可以得到非常好的效果。它與SNE不同的地方就是將低維空間下數(shù)據(jù)間的距離用t分布來表示，這就可以使得高維中距離較近的點(diǎn)在低維更近，高維中距離較遠(yuǎn)的點(diǎn)在低維更遠(yuǎn)。具體原因可以看這里從SNE到t-SNE再到LargeVis

我們來試試這個算法，先下載一份minist數(shù)據(jù)：https://pan.baidu.com/s/1bpiT3Vh

這是一份手寫字體圖片的數(shù)據(jù)，每個樣本是一個圖片，每個圖片的大小是28*28，展開后就一共有784個取值為0-254的像素特征。這里一共有10000個樣本。數(shù)據(jù)的第一列是標(biāo)簽。

我們在R運(yùn)行下面代碼可以得到這樣的圖：

可以看到基本上相同數(shù)字的變量都聚集在一起了，它的區(qū)分效果也是很棒的。不過綠色跟粉色的區(qū)分度就比較低。

#t-sne------ ## calling the installed package train<- read.csv(file.choose()) ## Choose the train.csv file downloaded from the link above set.seed(0) library(Rtsne) Labels<-train$label train$label<-as.factor(train$label)## Executing the algorithm on curated data tsne <- Rtsne(train[,-1], dims = 2, perplexity=30, verbose=TRUE, max_iter = 500)## Plotting library(ggplot2) df=data.frame(tsne$Y,label=train$label) ggplot(df,aes(x=X1,y=X2,color=label))+geom_point()

它在tensorflow中同樣也有相應(yīng)的實現(xiàn)，具體可以看：谷歌開源Embedding Projector，可將高維數(shù)據(jù)可視化

用tensorflow做出來的效果也是很驚艷的

參考資料

http://www.itl.nist.gov/div898/handbook/index.htm

http://onlinestatbook.com/2/transformations/box-cox.html

這是用Dataplot畫圖的代碼

Comparison of P-P Plots and Q-Q Plots

傅里葉分析之掐死教程（完整版）

Weibull distribution

從SNE到t-SNE再到LargeVis

Comprehensive Guide on t-SNE algorithm with implementation in R & Python

word2vec 中的數(shù)學(xué)原理詳解

Laurens V D M, Hinton G. Visualizing Data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605):2579-2605.

作為分享主義者(sharism)，本人所有互聯(lián)網(wǎng)發(fā)布的圖文均遵從CC版權(quán)，轉(zhuǎn)載請保留作者信息并注明作者a358463121專欄:http://blog.csdn.net/a358463121，如果涉及源代碼請注明GitHub地址：https://github.com/358463121/。商業(yè)使用請聯(lián)系作者。

總結(jié)

以上是生活随笔為你收集整理的探索性数据分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

数据

上一篇： Python编程的例子----股票数据接
下一篇：数学建模常用模型之秩和比综合评价法

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

探索性数据分析

探索性數(shù)據(jù)分析

介紹

EDA技術(shù)

1.自相關(guān)圖

2.雙柱狀圖(Bihistogram)

3.塊圖(Block Plot)

4.Bootstrap Plot

5.Box-Cox Linearity Plot

6.箱線圖

7.Complex Demodulation Amplitude Plot

8.等高線圖(Contour Plot)

9.DOE Scatter Plot

10.Lag plot

11.線性相關(guān)圖（Linear Correlation Plot）

12.均值圖(Mean Plot)

13.Q-Q圖(Quantile-Quantile Plot )與P-P圖(probability–probability plot)

14.散點(diǎn)圖

15.Spectral Plot

16.Weibull Plot

17.Youden Plot

18.t-sne

參考資料

總結(jié)