當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据科学项目(二)之明确问题及确立目标

發布時間：2023/12/19 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了数据科学项目(二)之明确问题及确立目标小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一個規范的數據科學項目必須起始于問題的確定，我們首先必須明確問題是什么，然后根據問題制定目標，然后才能設計和執行后續步驟。
問題和目標都涉及兩個層面：
①用戶層面
現實中的具體問題
針對用戶的具體問題，我們應該做好充足的背景調查，然后制定出相應的用戶層面的目標。

案例一：某銀行對他們的不良貸款率不滿意👉希望降低不良貸款案例二：某醫療機構對于某種疾病的早期診斷和預警不滿意 👉認為在例行的緊急醫護手段后死亡率依然太高，希望能通過提前預警降低死亡率案例三：某個汽車銷售門店對他們過去三個月的銷售業績不滿意 👉想要找到原因并作出改善

②數據科學層面
現實問題的抽象化
從數據科學角度，我們可以把用戶層的任務抽象成：
分類,關聯化,預測,特征提取,排名或打分,聚類…
分類：是指對于給定的數據，依據一定的規則進行兩個或兩個以上的類別劃分，獲得的輸出是針對輸入的數據所分配的類別標簽。
預測：是指基于已知數據對將來狀態作出估計或判斷。預測的結果是連續的數量值或類別標簽。
例：基于以往的用戶行為數據，估計用戶對某個將要投放的廣告實施點擊的概率
例：依據以往的天氣數據，估計未來7天的天氣
例：依據父母的身高預測孩子成年時的身高
打分或排名：對于實體的某種屬性或響應進行數量化描述或進行排序。
例：某單位根據員工的行為和業績數據，對前100名員工進行獎勵
排名和打分最簡單的是依據單一屬性，但是現實生活中依據多個屬性的情況也越來越普遍。
關聯化/去關聯化：在實體的眾多屬性特征中，尋找有相互關聯特征以便相互替代，從而實現特征的相互“解釋”或數據降維；而對于非關聯的特征則需予以保留以實現對樣本的全面描述。
例：某網在其用戶的眾多特征中，找到與其年消費額最相關的或最不相關的特征
例：根據用戶對電影的標簽式評價，找到與票房最相關或無關的因素
特征提取：基于實體的眾多特征，構造最反映目標的，或最能指示某種分類的復合特征。
聚類：指根據樣本間的相似度將樣本分組。

案例一：案例一：某銀行對他們的不良貸款率不滿意用戶層面👉希望降低不良貸款數據科學層面👉不良貸款率高說明很多實際的“高風險客戶”未被鑒別出來，所以我們首先應該識別出“高風險客戶”，這樣問題就被抽象化為對貸款申請客戶進行“普通客戶”/“高風險客戶”二分類的問題。我們就要考察現階段銀行對“高風險客戶”的識別率是多少，并設定我們的目標。案例二：某醫療機構對于某種疾病的早期診斷和預警不滿意用戶層面👉認為在例行的緊急醫護手段后死亡率依然太高，希望能通過提前預警降低死亡率數據科學層面👉這很明顯在數據科學層面是一個預測問題，那么我們需要了解目前的方法是在什么時間發現病人有危險的？我們需要將這個預警時刻提前多少，就能達到降低死亡率的目標？案例三：某個汽車銷售門店對他們過去三個月的銷售業績不滿意用戶層面👉想要找到原因并作出改善數據科學層面👉這是一個關聯化問題，那么我們能找出這些因素與業績之間的相互作用表達式嗎？找到后的話，做怎樣的調整能有望實現銷售業績的目標呢？

此文章為學習完中國大學慕課中南京大學的探索數據的奧秘課程第一講后所寫

總結

以上是生活随笔為你收集整理的数据科学项目(二)之明确问题及确立目标的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：了解※数据科学※(一)之数据的概念及一个
下一篇： hadoop伪分布式配置修改配置文件的时