當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析方法

發(fā)布時間：2025/3/8 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)分析方法

什么是數(shù)據(jù)分析

從數(shù)據(jù)到信息的這個過程，就是數(shù)據(jù)分析。數(shù)據(jù)本身并沒有什么價值，有價值的是我們從數(shù)據(jù)中提取出來的信息。

分類

分類分析的目標是：給一批人(或者物)分成幾個類別，或者預測他們屬于每個類別的概率大小。

　　舉個栗子：“京東的用戶中，有哪些會在618中下單?”這就是個典型的二分類問題：買or不買。

　　分類分析(根據(jù)歷史信息)會產(chǎn)出一個模型，來預測一個新的人(或物)會屬于哪個類別，或者屬于某個類別的概率。結果會有兩種形式：

　　形式1：京東的所有用戶中分為兩類，要么會買，要么不會買。

　　形式2：每個用戶有一個“會買”，或者“不會買”的概率(顯然這兩個是等效的)。“會買”的概率越大，我們認為這個用戶越有可能下單。

　　如果為形式2畫一道線，比如0.5，大于0.5是買，小于0.5是不買，形式2就轉變成形式1了。
　　

回歸

回歸任務的目標是：給每個人(或物)根據(jù)一些屬性變量來產(chǎn)出一個數(shù)字(來衡量他的好壞)。

舉個栗子：每個用戶在618會為京東下單多少錢的?

注意回歸和分類的區(qū)別在：分類產(chǎn)出的結果是固定的幾個選項之一，而回歸的結果是連續(xù)的數(shù)字，可能的取值是無限多的。

聚類

聚類任務的目標是：給定一批人(或物)，在不指定目標的前提下，看看哪些人(或物)之間更接近。

注意聚類和上面的分類和回歸的本質區(qū)別：分類和回歸都會有一個給定的目標(是否下單，貸款是否違約，房屋價格等等)，聚類是沒有給定目標的。

舉個栗子：給定一批用戶的購買記錄，有沒有可能分成幾種類型?(零食狂魔，電子愛好者，美妝達人……)

相似匹配

相似匹配任務的目標是：根據(jù)已知數(shù)據(jù)，判斷哪些人(或物)跟特定的一個(一批)人(或物)更相似。

舉個栗子：已知一批在去年雙十一下單超過10000元的用戶，哪些用戶跟他們比較相似?

頻繁集發(fā)現(xiàn)

頻繁集發(fā)現(xiàn)的目標是：找出經(jīng)常共同出現(xiàn)的人(或物)。這就是大名鼎鼎的“啤酒和尿布”的例子了。這個例子太容易擴展，就不再舉栗子啦。

“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中，沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象：在某些特定的情況下，“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中，這種獨特的銷售現(xiàn)象引起了管理人員的注意，經(jīng)過后續(xù)調查發(fā)現(xiàn)，這種現(xiàn)象出現(xiàn)在年輕的父親身上。

在美國有嬰兒的家庭中，一般是母親在家中照看嬰兒，年輕的父親前去超市購買尿布。父親在購買尿布的同時，往往會順便為自己購買啤酒，這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一，則他很有可能會放棄購物而到另一家商店，直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象，開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域，讓年輕的父親可以同時找到這兩件商品，并很快地完成購物；而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件，從而獲得了很好的商品銷售收入，這就是“啤酒與尿布”故事的由來。

統(tǒng)計(屬性、行為、狀態(tài))描述

統(tǒng)計描述任務的目標是最好理解的：具有哪些屬性的人(或物)在什么狀態(tài)下做什么什么事情。

舉個栗子：5月份一個月內每個用戶在京東7天內無條件退貨的次數(shù)

統(tǒng)計描述常常用戶欺詐檢測，試想一個用戶一個月退貨100+次，這會是一種什么情況?

連接預測

連接預測的目標是：預測本應該有聯(lián)系(暫時還沒有)的人(或物)。

舉個栗子：你可能認識xxx?你可能想看xxx?

數(shù)據(jù)壓縮

數(shù)據(jù)壓縮的目的是：減少數(shù)據(jù)集規(guī)模，增加信息密度。

舉個栗子：豆瓣想分析用戶關于國外電影的喜好，將國內電影的評分數(shù)據(jù)都排除

大數(shù)據(jù)，也不是數(shù)據(jù)越多越好，數(shù)據(jù)多帶來的信息多，但是噪聲也會變多。

因果分析

顧名思義，因果分析的目標是：找出事物間相互影響的關系。

舉個栗子：廣告的效果提升的原因是廣告內容好?還是投放到了更精準的用戶?

這里最常見的手段就是A/B test。

在運營過程中，AB測試用得更加普遍，比如發(fā)送郵件或者廣告，先拿小樣本，測試多個版本，數(shù)據(jù)表明哪一個廣告或郵件的轉化率高，就用哪一個郵件或廣告。

1 什么是A/B測試？

A/B測試是一種流行的網(wǎng)頁優(yōu)化方法，可以用于增加轉化率注冊率等網(wǎng)頁指標。簡單來說，就是為同一個目標制定兩個方案（比如兩個頁面），將產(chǎn)品的用戶流量分割成 A/B 兩組，一組試驗組，一組對照組，兩組用戶特點類似，并且同時運行。試驗運行一段時間后分別統(tǒng)計兩組用戶的表現(xiàn)，再將數(shù)據(jù)結果進行對比，就可以科學的幫助決策。比如在這個例子里，50%用戶看到 A 版本頁面，50%用戶看到 B 版本頁面，結果 A 版本用戶轉化率 23%，高于 B 版本的 11%，在試驗流量足夠大的情況下，我們就可以判定 A 版本勝出，然后將 A 版本頁面推送給所有的用戶。

AB測試本質上是個分離式組間實驗，以前進行AB測試的技術成本和資源成本相對較高，但現(xiàn)在一系列專業(yè)的可視化實驗工具的出現(xiàn)，AB測試已越來越成為網(wǎng)站優(yōu)化常用的方法。

A/B測試其實是一種“先驗”的實驗體系，屬于預測型結論，與“后驗”的歸納性結論差別巨大。A/B測試的目的在于通過科學的實驗設計、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論，并確信該結論在推廣到全部流量可信。

總結

以上是生活随笔為你收集整理的数据分析方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 7-深入练习Dockerfile
下一篇： 17-Docker的数据持久化介绍