数据分析思路
數(shù)據(jù)分析是在當今每個企業(yè)都所需要涉及的一門學科,數(shù)據(jù)分析的書隨便一搜就會有太多教大家如何的去使用。大致能把搜到的書分為兩類:第一類講數(shù)據(jù)理論統(tǒng)計學相關的,第二類就是數(shù)據(jù)分析工具應用類型的。而大部分我們所購買的書基本都是某一類工具如何使用去進行數(shù)據(jù)分析,但是看完過后還是不太懂什么是數(shù)據(jù)分析,應用到實際工作場景中照樣很迷茫不知道該如何下手,這是什么原因呢?有的小伙伴會說:我想分析的根本沒有數(shù)!拿到的這個數(shù)也就只能做做折線圖,同比環(huán)比兩組數(shù)對比一下!業(yè)務當中發(fā)生了什么數(shù)據(jù)好像不能看出來!不知道一個函數(shù)得出的結果代表什么!還有可能我根本不會用一些工作等等。。。
那為什么很多伙伴都想學數(shù)據(jù)分析呢?我想原因可能很簡單:就是數(shù)據(jù)分析相關的崗位工資高啊!現(xiàn)在進入大數(shù)據(jù)時代不會點數(shù)據(jù)分析你具備核心競爭力嗎?
本文就以個人愚見來探討一下如何去做數(shù)據(jù)分析。文章大致分四個層次分別為:需求層、數(shù)據(jù)層、分析層、輸出層。也是數(shù)據(jù)分析按重要順序排的大體步驟。
需求層
需求層為什么是最重要的呢?因為需求是數(shù)據(jù)分析的開始,也是你要分析的目標方向。如果你都不知道你要分析什么,還怎么談如何分析?數(shù)據(jù)分析需求的來源往往有3種場景:1.監(jiān)控到現(xiàn)有的指標出現(xiàn)了異常情況需要通過數(shù)據(jù)分析去找原因;2.公司要對現(xiàn)有的運營模式或者某個產品進行評估確定是否需要進行調整或者優(yōu)化;3.公司下達了戰(zhàn)略目標或短期目標需要通過分析看如何達成。要確定需求就必須與需求方進行溝通,清楚的確認需求的內容或者自己要分析前必須要清楚你想要的結果是什么方向。舉個簡單的例子:年底將近,雙十一大促銷在即,數(shù)據(jù)分析師們又到了一年最辛苦,最悲催的時間段。然而,有多少無意義的加班,是因為業(yè)務部門不會提需求所導致的。需求提的不合理,業(yè)務部門看了不解決問題,就會反反復復的再提需求。導致數(shù)據(jù)分析師們辛苦加班還不落好,背上一個:“分析沒深度啊!”的壞名聲。其實這不能怪需求方不會提需求,而是你作為數(shù)據(jù)分析人員要用你的經驗,你的專業(yè)技能,你的溝通技巧去引導,去確定,去達成一致。
所有要做到清晰的確定需求,需要自身具備:1、對業(yè)務、產品、需求背景有比較深的了解。了解的足夠對你才能去引導去判斷這個需求;2、光了解需求方是還不夠的,你需要從獲得的需求快速的去結合你所掌握的技能組工具有個初步的分析思路;3、綜合判斷后你再決定是否需要分析,應該怎么分析,與需求方溝通確定清楚兩方理解是否一致。如果無法做到就會出現(xiàn)很多無法避免的問題。
理論上數(shù)據(jù)分析師所從事的工作是給出業(yè)務方相應的數(shù)據(jù)結果,而不是解決方案。雖然也有分析兩個字,但是如何設計解決方案是業(yè)務部門的事。運營部門就該做活動方案,產品經理就該出產品方案,銷售部門就該想東西怎么賣。這才是業(yè)務部門的本職工作。吵吵著:“你說我不行,你行你上啊”是玩忽職守的扯皮表現(xiàn)。如果連具體的業(yè)務方案都讓分析師來想了,分析師也干脆把業(yè)務部門的工資領了算了。但是當下專業(yè)的數(shù)據(jù)分析師是需要比業(yè)務方更了解業(yè)務,你不了解業(yè)務下的結論領導或者需求方感信任嗎?所以,一個業(yè)務技術雙精通的數(shù)據(jù)分析師,是可以替業(yè)務方搞定上邊所有問題的,不依賴業(yè)務方的判斷,因為他自己就是個業(yè)務高手,有豐富的實戰(zhàn)經驗與業(yè)務能力。但這種人是可遇不可求的。大部分數(shù)據(jù)分析師還是70%時間處理數(shù)據(jù)的技術男。
在需求層我總結一下我們所需要了具備的能力:1、對業(yè)務、產品、需求背景有足夠的了解,如果不了解說明你在這塊應該先去充充電;2、然后當你無法想到分析方法的時候說明你對現(xiàn)有的數(shù)據(jù)不夠了解。你同樣該去了解了解數(shù)據(jù)的來源,數(shù)據(jù)的流轉,數(shù)據(jù)的定義。
數(shù)據(jù)層
目標需求確定過后,現(xiàn)在的你就需要開始準備相關的數(shù)據(jù)了。數(shù)據(jù)層大致分為:數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)整理。有的伙伴會問,數(shù)據(jù)應該從哪來呢?數(shù)據(jù)來源取決于你分析需求,有直接從企業(yè)數(shù)據(jù)庫通過SQL進行取數(shù)、有通過各統(tǒng)計網(wǎng)站進行數(shù)據(jù)下載,有通過爬蟲技術在互聯(lián)網(wǎng)進行數(shù)據(jù)抓取,也有通過企業(yè)已經加工好的數(shù)據(jù)報表,這里主要去講在大數(shù)據(jù)時代如何去準備數(shù)據(jù)。因為利用數(shù)據(jù)庫才能實現(xiàn)大數(shù)據(jù)下的真正核心分析,你才能配上數(shù)據(jù)分析師這次名稱。
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合。大數(shù)據(jù)挖掘商業(yè)價值的方法主要分為四種1.客戶群體細分,然后為每個群體量定制特別的服務;2.模擬現(xiàn)實環(huán)境,發(fā)掘新的需求同時提高投資的回報率;3.加強部門聯(lián)系,提高整條管理鏈條和產業(yè)鏈條的效率;4.降低服務成本,發(fā)現(xiàn)隱藏線索進行產品和服務的創(chuàng)新。
為什么大數(shù)據(jù)能實現(xiàn)這些場景?因為大數(shù)據(jù)的類型大致可分為三類:1.傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional enterprise data):包括 CRM systems的消費者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫存數(shù)據(jù)以及賬目數(shù)據(jù)等;2.機器和傳感器數(shù)據(jù)(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設備傳感器,設備日志(通常是Digital exhaust),交易數(shù)據(jù)等;3.社交數(shù)據(jù)(Social data):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,Facebook這樣的社交媒體平臺等。通過數(shù)據(jù)庫你能取到已加工好的報表EXCEL所無法做到的多樣性及細節(jié)化,你才能通過這些詳細的數(shù)據(jù)找出數(shù)據(jù)背后存在的問題。
現(xiàn)在的數(shù)據(jù)庫主要分為關系類型數(shù)據(jù),分布式數(shù)據(jù)庫。關系類型數(shù)據(jù)代表產品為mysql(免費開源的),分布式數(shù)據(jù)庫代表hadoop。兩種都是實用sql語言進行數(shù)據(jù)提取,在數(shù)據(jù)分析中你將提取出來與分析相關的數(shù)據(jù)這步就是數(shù)據(jù)獲取。這里你需要具備基礎的sql語言能力,要從海量的數(shù)據(jù)中找到你想要的部分。這個環(huán)節(jié)你也能對數(shù)據(jù)進行初步的清理,這里取決于數(shù)據(jù)庫中的數(shù)據(jù)存儲是否完整規(guī)范。這里有一篇說數(shù)據(jù)庫數(shù)據(jù)質量的文章推薦給大家數(shù)據(jù)質量管理。當你數(shù)據(jù)清理好也整理好后就可以開始進行數(shù)據(jù)分析了。
分析層
分析的工具有很多,平民版的分析工具有excel、非專業(yè)的專業(yè)分析工具有spss、專業(yè)資深的分析工作有sas/R/python。我的個人建議是在整個分析過程需要掌握的工具中為sql、excel、python。為什么是這三個,我先來說一下各個工具的特點。sql上文講當它是數(shù)據(jù)獲取的一個主要語言,而excel可以進行一下快速的數(shù)據(jù)展示(手動拖動點選快),Python功能強大幾乎可以做你想做的任何事情不止局限于數(shù)據(jù)分析,學習優(yōu)勢絕對大于其他分析工具python能做的事情。
好了,那我們就利用Python來進行數(shù)據(jù)分析,分析的思路都是由”淺到深“。數(shù)據(jù)分析一般的步驟為:描述分析——鎖定方向——建模分析——模型測試——迭代優(yōu)化——模型加載——洞察結論。
描述分析是最基本的分析統(tǒng)計方法,在實際工作中也是應用最廣的分析方法。描述統(tǒng)計分為兩大部分:數(shù)據(jù)描述和指標統(tǒng)計;
數(shù)據(jù)描述:用來對數(shù)據(jù)進行基本情況的刻畫,包括:數(shù)據(jù)總數(shù)、時間跨度、時間粒度、空間范圍、空間粒度、數(shù)據(jù)來源等。如果是建模,那么還要看數(shù)據(jù)的極值、分布、離散度等內容。
指標統(tǒng)計:用來作報告,分析實際情況的數(shù)據(jù)指標,可粗略分為四大類:變化、分布、對比、預測;變化:指標隨時間的變動,表現(xiàn)為增幅(同比、環(huán)比等);分布:指標在不同層次上的表現(xiàn),包括地域分布(省、市、區(qū)縣、店/網(wǎng)點)、用戶群分布(年齡、性別、職業(yè)等)、產品分布(如動感地帶和全球通)等;對比:包括內部對比和外部對比,內部對比包括團隊對比(團隊A與B的單產對比、銷量對比等)、產品線對比(動感地帶和全球通的ARPU、用戶數(shù)、收入對比);外部對比主要是與市場環(huán)境和競爭者對比;這一部分和分布有重疊的地方,但分布更多用于找出好或壞的地方,而對比更偏重于找到好或壞的原因;預測:根據(jù)現(xiàn)有情況,估計下個分析時段的指標值;
洞察結論這一步是數(shù)據(jù)報告的核心,也是最能看出數(shù)據(jù)分析師水平的部分。一個年輕的分析師和一個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內容。
舉個例子:
例子來源Data Science with R&Python
年輕的分析師:2013年1月銷售額同比上升60%,迎來開門紅。2月銷售額有所下降,3月大幅回升,4月持續(xù)增長。
年邁的分析師:2013年1月、2月銷售額去除春節(jié)因素后,1月實際同比上升20%,2月實際同比上升14%,3月、4月銷售額持續(xù)增長。
看到兩者的區(qū)別了嗎?2013年春節(jié)在2月,2012年則在1月,因此需要各去除一周的銷售額,再進行比較。如果不考慮這一因素,那么后續(xù)得出的所有結論都是錯的。挖掘數(shù)字變化背后的真正影響因素,才是洞察的目標。
輸出層
都到這一步了,相信各位對數(shù)據(jù)報告也不再陌生了。這一步中,需要保證的是數(shù)據(jù)報告內容的完整性。一個完整的數(shù)據(jù)報告,應至少包含以下六塊內容:報告背景、報告目的、數(shù)據(jù)來源、數(shù)量等基本情況、分頁圖表內容及本頁結論、各部分小結及最終總結、下一步策略或對趨勢的預測;
其中,背景和目的決定了你的報告邏輯(解決什么問題);數(shù)據(jù)基本情況告訴對方你用了什么樣的數(shù)據(jù),可信度如何;分頁內容需要按照一定的邏輯來構建,目標仍然是解決報告目的中的問題;小結及總結必不可少;下一步策略或對趨勢的預測能為你的報告加分。
這大致就是整個數(shù)據(jù)分析所涉及的四個大步驟,后面就靠大家自己努力學習和思考了。最后說一下一直激勵我前進的話:科技改變命運,科技掌握自己手中,自己由心出發(fā)。
總結
- 上一篇: 压缩及解压命令
- 下一篇: android 时间戳 时区,三句话理解