干货 | 数据分析的 7 个关键步骤是什么?
“數據科學家”?這個名號總讓人聯想到一個孤獨的天才獨自工作,將深奧的公式應用于大量的數據,從而探索出有用的見解。但這僅僅是數據分析過程中的一步。數據分析本身不是目標,目標是使企業能夠做出更好的決策。
數據科學家構建出的產品,必須使得組織中的每個人更好地使用數據,使得每個部門、每個層級可以做出受數據驅動的決策。
在自動收集、清洗和分析數據的產品中,可以捕獲數據價值鏈,為執行儀表盤或報告提供信息和預測。隨著新數據的產生,分析工作可以自動地、連續地運行。數據科學家可以根據業務不斷改進模型,提高預測精度。雖然每個公司都是針對自己的需求和目標創建數據產品,但價值鏈中的一些步驟是一致的:
01 決定目標
在獲取數據之前,數據價值鏈的第一步要先決定目標:業務部門要決定數據科學團隊的目標。這些目標通常需要進行大量的數據收集和分析。因為我們正在研究那些驅動決策的數據,所以需要一個可衡量的方式,判斷業務是否正向著目標前進。數據分析過程中,關鍵權值或性能指標必須及早發現。
02 確定業務手段
應該通過業務的改變,來提高關鍵指標和達到業務目標。如果沒有什么可以改變的,無論收集和分析多少數據都不可能有進步。在項目中盡早確定目標、指標和業務手段能為項目指明方向,避免無意義的數據分析。例如,目標是提高客戶滯留度,其中一個指標可以是客戶更新他們訂閱的百分比,業務手段可以是更新頁面的設計,提醒郵件的時間和內容以及特別的促銷活動。
03 數據收集
數據收集要盡量廣撒網。更多的數據—-特別是更多的不同來源的數據—-使得數據科學家能找到數據之間更好的相關性,建立更好的模型,找到更多的可行性見解。大數據經濟意味著個人記錄往往是無用的,擁有可供分析的每一條記錄才能提供真正的價值。公司通過檢測它們的網站來密切跟蹤用戶的點擊及鼠標移動,商店通過在產品上附加RFID來跟蹤用戶的移動,教練通過在運動員身上附加傳感器來跟蹤他們的行動方式。
04 數據清洗
數據分析的第一步是提高數據質量。數據科學家要糾正拼寫錯誤,處理缺失數據以及清除無意義的信息。這是數據價值鏈中最關鍵的步驟。垃圾數據,即使是通過最好的分析,也將產生錯誤的結果,并誤導業務本身。不止一個公司很驚訝地發現,他們很大一部分客戶住在紐約的斯克內克塔迪,而該小鎮的人口不到70000人。然而,斯克內克塔迪的郵政編碼是12345,由于客戶往往不愿將他們的真實信息填入在線表單,所以這個郵政編碼會不成比例地出現在幾乎每一個客戶的檔案數據庫中。直接分析這些數據將導致錯誤的結論,除非數據分析師采取措施來驗證和清洗數據。
尤為重要的是,這一步將規?;瘓绦?#xff0c;因為連續數據價值鏈要求傳入的數據會立即被清洗,且清洗頻率非常高。這通常意味著此過程將自動執行,但這并不意味著人無法參與其中。
05 ?數據建模
數據科學家構建模型,關聯數據與業務成果,提出關于在第一步中確定的業務手段變化的建議。數據科學家獨一無二的專業知識是業務成功的關鍵所在,就體現在這一步—-關聯數據,建立模型,預測業務成果。數據科學家必須有良好的統計學和機器學習背景,才能構建出科學、精確的模型,避免毫無意義的相關性及一些模型的陷阱。這些模型依賴于現有的數據,但對于未來的預測是無用的。但只有統計學背景是不夠的,數據科學家還需要很好地了解業務,這樣他們才能判斷數學模型的結果是否有意義,以及是否具有相關性。
06 培養一個數據科學團隊
數據科學家是出了名的難雇用,所以最好自己構建一個數據科學團隊,讓團隊中那些在統計學方面有高級學位的人專注于數據建模和預測,而其他人—-合格的基礎架構工程師,軟件開發人員和ETL專家—-構建必要的數據收集基礎設施,數據管道和數據產品,使得結果數據能夠從模型中輸出,并以報告和表格的形式在業務中進行展示。這些團隊通常使用類似Hadoop的大規模數據分析平臺自動化數據收集和分析工作,并作為一個產品運行整個過程。
07 優化和重復
數據價值鏈是一個可重復的過程,能夠對業務和數據價值鏈本身產生連續的改進。基于模型的結果,業務將根據驅動手段做出改變,數據科學團隊將評估結果。在結果的基礎上,企業可以決定下一步計劃,而數據科學團隊繼續進行數據收集、數據清理和數據建模。企業重復這個過程越快,就會越早修正發展方向,越快得到數據價值。理想情況下,多次迭代后,模型將產生準確的預測,業務將達到預定的目標,結果數據價值鏈將用于監測和報告,同時團隊中的每個人將開始解決下一個業務挑戰。
08 附?
以下是大致是所有從底層數據工作者往上發展的基本路徑。往數據發展的基本學習路徑可以概括為以下內容:
1)EXCEL、PPT(必須精通)
數據工作者的基本姿態,話說本人技術并不是很好,但是起碼會操作;要會大膽秀自己,和業務部門交流需求,展示分析結果。技術上回VBA和數據透視就到頂了。
2)數據庫類(必須學)
初級只要會RDBMS就行了,看公司用哪個,用哪個學哪個。沒進公司就學MySQL吧。
NoSQL可以在之后和統計學啥的一起學?;镜腘oSQL血MongoDB和Redis(緩存,嚴格意義上不算數據庫),然后(選學)可以了解各類NoSQL,基于圖的數據庫Neo4j,基于Column的數據庫BigTable,基于key-value的數據庫redis/cassendra,基于collection的數據庫MongoDB。
3)統計學(必須學)
如果要學統計學,重要概念是會描述性統計、假設檢驗、貝葉斯、極大似然法、回歸(特別是廣義線性回歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看自己的意愿。其他數學知識:線性代數常用(是很多后面的基礎),微積分不常用,動力系統、傅里葉分析看自己想進的行業了。
4)機器學習(數據分析師要求會選、用、調)
常用的是幾個線性分類器、聚類、回歸、隨機森林、貝葉斯;不常用的也稍微了解一下;深度學習視情況學習。
5)大數據(選學,有公司要求的話會用即可,不要求會搭環境)
hadoop基礎,包括hdfs、map-reduce、hive之類;后面接觸spark和storm再說了。
6)文本類(選學,有公司要求的話會用即可)
這部分不熟,基本要知道次感化、分詞、情感分析啥的。
7)工具類
語言:非大數據類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數據可能還會用到scala和java。可視化(選學):tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不錯
數據庫語言:看你自己用啥學啥
其他框架、類庫(選學):爬蟲(requests、beautifulsoup、scrapy),日志分析(常見elk)
End.
轉自:人工智能和大數據生活
來源:伯樂在線/知乎
總結
以上是生活随笔為你收集整理的干货 | 数据分析的 7 个关键步骤是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 瓷砖贴完后墙面开裂的声音怎么处理?
- 下一篇: 病历智能处理引擎的架构设计、实现和应用