通过女票的淘宝历程,大白话讲解大数据各个方向的分工
浙江女性胸部全國最小!?
--馬云
本文轉(zhuǎn)自公眾號(hào)“大數(shù)據(jù)肌肉猿”,作者無精瘋
1 背景
總跟女票說我是做大數(shù)據(jù)的,女票也跟她朋友說我是做大數(shù)據(jù)的,但一問是啥,我跟我女票解釋了半天她都沒聽懂,她也不知道怎么跟她朋友說。最好的解決方法是換女票,當(dāng)然這是不存在的,想都不會(huì)想也不敢想。于是乎說寫篇她看完也能知道大數(shù)據(jù)的文章給她。
下次要是有人問你大數(shù)據(jù)開發(fā)是什么,希望你能把這篇文章分享給他。
2. 開始淘寶
2.1 推薦系統(tǒng)(導(dǎo)購員)
一打開女票的手機(jī)淘寶頁面,就發(fā)現(xiàn)推薦欄叫我女票換包。
推薦商品欄以及熱搜和搜索框中的內(nèi)容,都是根據(jù)你定制的。你最近經(jīng)常搜的物品和瀏覽的東西都被記錄起來,然后被貼上標(biāo)簽。像我女票應(yīng)該是被貼上「小仙女」、「時(shí)尚」、「少女」等標(biāo)簽,下次的女神節(jié),情人節(jié)等節(jié)日活動(dòng)的對象就是他們。
這個(gè)就是大數(shù)據(jù)中的推薦系統(tǒng),專門猜你喜歡,類似導(dǎo)購,提高你的購買率。
2.2 大數(shù)據(jù)平臺(tái)開發(fā)(店里監(jiān)控布局)
那么數(shù)據(jù)是怎么被記錄的?被記錄的又是什么數(shù)據(jù)?
你的昵稱,設(shè)備IP,瀏覽的足跡,每個(gè)商品停留的時(shí)間,瀏覽的時(shí)間段都是后臺(tái)要采集的數(shù)據(jù)。
首先我們搭建一個(gè)平臺(tái),專門去定制收集數(shù)據(jù)的手段、采取的策略和存放這些數(shù)據(jù)的地方,這就是大數(shù)據(jù)平臺(tái)的搭建。
類似你在你店里布置了監(jiān)控探頭,錄音等設(shè)備,然后有其他店員通過這些設(shè)備幫你觀察消費(fèi)者的言行舉止等等行為。
2.3 實(shí)時(shí)計(jì)算(收銀員)
當(dāng)你在瀏覽商品的時(shí)候,你會(huì)發(fā)現(xiàn)旁邊會(huì)有實(shí)時(shí)的推薦,如下圖:
這是因?yàn)槟阍跒g覽商品的過程中數(shù)據(jù)不斷被收集,然后被投放到上述的推薦系統(tǒng)中。但是那些用戶名,商品等信息不一定都是規(guī)則的,有可能是數(shù)字,有可能是符號(hào)。所以我們這邊要有一類程序員,專門負(fù)責(zé)實(shí)時(shí)的處理這些數(shù)據(jù),把這些數(shù)據(jù)處理成有規(guī)則的,并推送到上述的推薦系統(tǒng)里進(jìn)行訓(xùn)練,實(shí)時(shí)給用戶推薦商品。
這個(gè)過程就是大數(shù)據(jù)的實(shí)時(shí)計(jì)算,它具有時(shí)效性,就是不能停,立刻馬上做出響應(yīng)的。把它比喻成收銀員就是為了突出實(shí)時(shí),別人要結(jié)賬你得立即做出響應(yīng)。
2.4 數(shù)據(jù)倉庫(儲(chǔ)物間)
數(shù)據(jù)倉庫,顧名思義,存儲(chǔ)數(shù)據(jù)的倉庫。在我們一些工廠或者企業(yè)的倉庫里,我們通常都會(huì)按順序、分類放好我們的物品,要制定規(guī)則,哪些能放,哪些不能放,哪些需要處理之后才能放。
比如說你要放一個(gè)柜子,不能直接放下,但你如果把它拆成木板就可以放,等要用的時(shí)候通過這些木板去組裝就行。
因?yàn)閿?shù)據(jù)倉庫的存儲(chǔ)要遵守?cái)?shù)據(jù)倉庫管理員制定的規(guī)則,得將數(shù)據(jù)按照規(guī)格處理好才能進(jìn)行存放,所以數(shù)據(jù)倉庫一般用于存放不著急用而且不經(jīng)常更換的東西,這樣比較省事,我們什么時(shí)候想用再去取就行。
像我們前面說的實(shí)時(shí)計(jì)算,就沒必要把那些數(shù)據(jù)放到數(shù)據(jù)倉庫,我們需要的是一條流水線的數(shù)據(jù)管道,實(shí)時(shí)去推送。但后續(xù)的離線計(jì)算就截然相反,它需要數(shù)據(jù)倉庫的支撐,便于更好地去計(jì)算數(shù)據(jù)。
2.5 數(shù)據(jù)分析(店長)
當(dāng)你從淘寶給你推薦的商品挑選出你喜歡的之后,點(diǎn)擊直接購買并付款。淘寶系統(tǒng)會(huì)生成一條你訂單的數(shù)據(jù)到數(shù)據(jù)庫里面,上面會(huì)有你的收件地址、聯(lián)系方式、商品信息、數(shù)量等。
而這些數(shù)據(jù)有什么用呢?你可能會(huì)想說,留底當(dāng)憑證啊。對的,不過不止這個(gè)作用。
舉個(gè)例子:馬云開會(huì)說:我要看一下這十年的內(nèi)衣銷售明細(xì),各個(gè)地區(qū)的銷售情況。這時(shí)候有個(gè)部門就要去整理出這些報(bào)表了,那就是數(shù)據(jù)分析部門,他們要從海量的數(shù)據(jù)中去分析這些指標(biāo),并整理成報(bào)表給馬老板看。
馬老板看了這些數(shù)據(jù)之后,得出一個(gè)結(jié)論:「浙江女性胸部全國最小」。然后呢?肯定是以后往浙江多進(jìn)一些小碼的內(nèi)衣,以增加銷售量,然后可能再順帶賣點(diǎn)木瓜什么的。
這就是數(shù)據(jù)分析帶來的好處,為我們公司的高層提供決策支持。
2.6 離線計(jì)算(會(huì)計(jì))
不對啊,十年的數(shù)據(jù)量,能說查就查嗎?數(shù)據(jù)量得多大啊!沒錯(cuò),不可能說要什么數(shù)據(jù)立馬就能查出來的。最理想的方案就是:當(dāng)天結(jié)束就計(jì)算當(dāng)天的指標(biāo),把銷售額,地址什么的統(tǒng)計(jì)好,然后每星期再統(tǒng)計(jì)一下,每個(gè)月再統(tǒng)計(jì)一下,以此類推。那算十年不就分分鐘的事?
對的,那這些事情誰來做呢?當(dāng)然是我們離線計(jì)算工程師。離線計(jì)算顧名思義,實(shí)時(shí)計(jì)算的對立方,我們做的是幕后工作。可以將實(shí)時(shí)計(jì)算工程師想象為收銀員,每個(gè)顧客買單時(shí)都得結(jié)賬并打印發(fā)票什么的,不能拖延。離線計(jì)算則是會(huì)計(jì),每天下班之后看著賬單點(diǎn)數(shù),看看今天哪些東西各賣多少。可以慢悠悠地算一個(gè)晚上,數(shù)據(jù)對就行,沒人在乎你算了多久。
2.7 數(shù)據(jù)挖掘(精算師)
那這些處理好的數(shù)據(jù)不能光存著啊,得挖掘出它的價(jià)值。沒錯(cuò),根據(jù)這些訂單數(shù)據(jù),我們能推測出未來商品的一個(gè)銷售走勢,哪個(gè)地區(qū)需要投放哪些商品,這就是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘相當(dāng)于我們企業(yè)的精算師顧問,他會(huì)從你已有的數(shù)據(jù)去分析你之后的走勢,給你提供一些有價(jià)值可供參考的建議。
我們要給數(shù)據(jù)挖掘系統(tǒng)投放有價(jià)值的數(shù)據(jù),它類似我們?nèi)四X,輸入的數(shù)據(jù)越有價(jià)值和參考性,預(yù)測的結(jié)果越準(zhǔn),否則只會(huì)誤導(dǎo)。
3、總結(jié)
好了,通過以上步驟,淘寶更懂我女朋友了,它會(huì)推送更多符合我女票的胃口的商品,然后下單之后的數(shù)據(jù)會(huì)幫助那些商家投放更多種類的商品到該地區(qū),選擇更多了,我女朋友也更喜歡在淘寶購物了。
總結(jié)
以上是生活随笔為你收集整理的通过女票的淘宝历程,大白话讲解大数据各个方向的分工的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 干货,springboot自定义注解实现
- 下一篇: 如果把线程当作一个人来对待,所有问题都瞬