日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析方法

發(fā)布時間:2025/3/8 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析方法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)分析方法

什么是數(shù)據(jù)分析

從數(shù)據(jù)到信息的這個過程,就是數(shù)據(jù)分析。數(shù)據(jù)本身并沒有什么價值,有價值的是我們從數(shù)據(jù)中提取出來的信息。

分類

分類分析的目標是:給一批人(或者物)分成幾個類別,或者預測他們屬于每個類別的概率大小。

  舉個栗子:“京東的用戶中,有哪些會在618中下單?”這就是個典型的二分類問題:買or不買。

  分類分析(根據(jù)歷史信息)會產(chǎn)出一個模型,來預測一個新的人(或物)會屬于哪個類別,或者屬于某個類別的概率。結果會有兩種形式:

  形式1:京東的所有用戶中分為兩類,要么會買,要么不會買。

  形式2:每個用戶有一個“會買”,或者“不會買”的概率(顯然這兩個是等效的)。“會買”的概率越大,我們認為這個用戶越有可能下單。

  如果為形式2畫一道線,比如0.5,大于0.5是買,小于0.5是不買,形式2就轉變成形式1了。
  

回歸

回歸任務的目標是:給每個人(或物)根據(jù)一些屬性變量來產(chǎn)出一個數(shù)字(來衡量他的好壞)。

舉個栗子:每個用戶在618會為京東下單多少錢的?

注意回歸和分類的區(qū)別在:分類產(chǎn)出的結果是固定的幾個選項之一,而回歸的結果是連續(xù)的數(shù)字,可能的取值是無限多的。

聚類

聚類任務的目標是:給定一批人(或物),在不指定目標的前提下,看看哪些人(或物)之間更接近。

注意聚類和上面的分類和回歸的本質區(qū)別:分類和回歸都會有一個給定的目標(是否下單,貸款是否違約,房屋價格等等),聚類是沒有給定目標的。

舉個栗子:給定一批用戶的購買記錄,有沒有可能分成幾種類型?(零食狂魔,電子愛好者,美妝達人……)

相似匹配

相似匹配任務的目標是:根據(jù)已知數(shù)據(jù),判斷哪些人(或物)跟特定的一個(一批)人(或物)更相似。

舉個栗子:已知一批在去年雙十一下單超過10000元的用戶,哪些用戶跟他們比較相似?

頻繁集發(fā)現(xiàn)

頻繁集發(fā)現(xiàn)的目標是:找出經(jīng)常共同出現(xiàn)的人(或物)。這就是大名鼎鼎的“啤酒和尿布”的例子了。這個例子太容易擴展,就不再舉栗子啦。

“啤酒與尿布”的故事產(chǎn)生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T分析銷售數(shù)據(jù)時發(fā)現(xiàn)了一個令人難于理解的現(xiàn)象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經(jīng)常出現(xiàn)在同一個購物籃中,這種獨特的銷售現(xiàn)象引起了管理人員的注意,經(jīng)過后續(xù)調查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發(fā)現(xiàn)了這一獨特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。

統(tǒng)計(屬性、行為、狀態(tài))描述

統(tǒng)計描述任務的目標是最好理解的:具有哪些屬性的人(或物)在什么狀態(tài)下做什么什么事情。

舉個栗子:5月份一個月內每個用戶在京東7天內無條件退貨的次數(shù)

統(tǒng)計描述常常用戶欺詐檢測,試想一個用戶一個月退貨100+次,這會是一種什么情況?

連接預測

連接預測的目標是:預測本應該有聯(lián)系(暫時還沒有)的人(或物)。

舉個栗子:你可能認識xxx?你可能想看xxx?

數(shù)據(jù)壓縮

數(shù)據(jù)壓縮的目的是:減少數(shù)據(jù)集規(guī)模,增加信息密度。

舉個栗子:豆瓣想分析用戶關于國外電影的喜好,將國內電影的評分數(shù)據(jù)都排除

大數(shù)據(jù),也不是數(shù)據(jù)越多越好,數(shù)據(jù)多帶來的信息多,但是噪聲也會變多。

因果分析

顧名思義,因果分析的目標是:找出事物間相互影響的關系。

舉個栗子:廣告的效果提升的原因是廣告內容好?還是投放到了更精準的用戶?

這里最常見的手段就是A/B test。

在運營過程中,AB測試用得更加普遍,比如發(fā)送郵件或者廣告,先拿小樣本,測試多個版本,數(shù)據(jù)表明哪一個廣告或郵件的轉化率高,就用哪一個郵件或廣告。

1 什么是A/B測試?

A/B測試是一種流行的網(wǎng)頁優(yōu)化方法,可以用于增加轉化率注冊率等網(wǎng)頁指標。簡單來說,就是為同一個目標制定兩個方案(比如兩個頁面),將產(chǎn)品的用戶流量分割成 A/B 兩組,一組試驗組,一組對照組,兩組用戶特點類似,并且同時運行。試驗運行一段時間后分別統(tǒng)計兩組用戶的表現(xiàn),再將數(shù)據(jù)結果進行對比,就可以科學的幫助決策。比如在這個例子里,50%用戶看到 A 版本頁面,50%用戶看到 B 版本頁面,結果 A 版本用戶轉化率 23%,高于 B 版本的 11%,在試驗流量足夠大的情況下,我們就可以判定 A 版本勝出,然后將 A 版本頁面推送給所有的用戶。

AB測試本質上是個分離式組間實驗,以前進行AB測試的技術成本和資源成本相對較高,但現(xiàn)在一系列專業(yè)的可視化實驗工具的出現(xiàn),AB測試已越來越成為網(wǎng)站優(yōu)化常用的方法。

A/B測試其實是一種“先驗”的實驗體系,屬于預測型結論,與“后驗”的歸納性結論差別巨大。A/B測試的目的在于通過科學的實驗設計、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論,并確信該結論在推廣到全部流量可信。

相關連接

  • A/B 測試
  • 啤酒與尿布
  • 什么是A/B測試
  • 總結

    以上是生活随笔為你收集整理的数据分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。