数据科学项目(二)之明确问题及确立目标
一個規范的數據科學項目必須起始于問題的確定,我們首先必須明確問題是什么,然后根據問題制定目標,然后才能設計和執行后續步驟。
問題和目標都涉及兩個層面:
①用戶層面
現實中的具體問題
針對用戶的具體問題,我們應該做好充足的背景調查,然后制定出相應的用戶層面的目標。
②數據科學層面
現實問題的抽象化
從數據科學角度,我們可以把用戶層的任務抽象成:
分類,關聯化,預測,特征提取,排名或打分,聚類…
分類:是指對于給定的數據,依據一定的規則進行兩個或兩個以上的類別劃分,獲得的輸出是針對輸入的數據所分配的類別標簽。
預測:是指基于已知數據對將來狀態作出估計或判斷。預測的結果是連續的數量值或類別標簽。
例:基于以往的用戶行為數據,估計用戶對某個將要投放的廣告實施點擊的概率
例:依據以往的天氣數據,估計未來7天的天氣
例:依據父母的身高預測孩子成年時的身高
打分或排名:對于實體的某種屬性或響應進行數量化描述或進行排序。
例:某單位根據員工的行為和業績數據,對前100名員工進行獎勵
排名和打分最簡單的是依據單一屬性,但是現實生活中依據多個屬性的情況也越來越普遍。
關聯化/去關聯化:在實體的眾多屬性特征中,尋找有相互關聯特征以便相互替代,從而實現特征的相互“解釋”或數據降維;而對于非關聯的特征則需予以保留以實現對樣本的全面描述。
例:某網在其用戶的眾多特征中,找到與其年消費額最相關的或最不相關的特征
例:根據用戶對電影的標簽式評價,找到與票房最相關或無關的因素
特征提取:基于實體的眾多特征,構造最反映目標的,或最能指示某種分類的復合特征。
聚類:指根據樣本間的相似度將樣本分組。
此文章為學習完中國大學慕課中南京大學的探索數據的奧秘課程第一講后所寫
總結
以上是生活随笔為你收集整理的数据科学项目(二)之明确问题及确立目标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 了解※数据科学※(一)之数据的概念及一个
- 下一篇: hadoop伪分布式配置修改配置文件的时