机器学习-概述01
機器學習的概述
- 什么是機器學習
- 機器學習是從數據中自動分析獲得規律(模型),并利用規律對未知數據進行預測。
- 為什么需要機器學習
- 解放生產力: 智能客戶 — 不知疲倦進行24小時作業
- 解決專業問題: ET醫療 ---- 幫助看病
- 提供社會便利 : 如杭州的城市大腦
- 機器學習在各領域的價值
- 領域:醫療,航空,教育,物流,電商…
- 目的: 讓機器學習程序替換手動的步驟,減少企業的成本也提高企業的效率
- 例子: 汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄給有這種喜好的客戶手中,從而大大增加商業機會等。
數據集的構成
-
從歷史數據當中獲得規律?這些歷史數據是怎樣的格式?
- 機器學習的數據:一般是文件 csv excel 等
- 因為數據庫存在性能瓶頸,讀取速度限制,格式不太符合機器學習要求數據的格式等
-
pandas/numpy:讀取工具
-
特征值+目標值
序號 顏色 形狀 重量 材料 類別
1 紅 長方形 50 鐵 A
2 黃 圓形 20 銅 B
3 白 橢圓形 10 鋁 C
4 綠 正方形 5 塑料 D
5 青 三角形 1 塑料 D
橫著的一行叫數據樣本
如: 1 紅 長方形 50 鐵
豎著的每一列叫特征值
如:顏色 形狀 重量 材料
想要的分類結果叫 目標值
如:類別 A,B,C,D 有4個目標值
特征工程直接影響預測結果
數據集中對特征的處理:
pandas:一個數據讀取非常方便以及基本處理格式的工具
- dataFrame: 缺失值,數據轉換,重復值(不需要去重)
sklearn:對于特征的處理提供了強大的接口
總結
- 上一篇: 数据分析学习03-pandas
- 下一篇: 机器学习-特征抽取02